한국어 LLM 모델 별 요약 성능

2025. 2. 3. 11:43연구하기, 지식

테스트 모델

모회사 모델 이름 모델 크기 장점 단점
OpenAI GPT 4o mini 비공개 - 최고의 언어 능력.
- 뛰어난 처리 속도.
- 외부 GPU 리소스 사용.
- 무조건 과금.
- 무조건 외부 GPU 사용(기업 내부 프로젝트에서 사용 불가).
- 정보의 불투명성.
LG AI EXAONE 3.5 32B - 나온지 2개월 밖에 안된 최신 모델.
- LG에서 개발.
- 32B 모델은 4090에서 조차 돌아가지 않는 너무 많은 리소스 사용.
- 경량화 모델이 없어서 활용도 제한.
LG AI EXAONE 3.5 7.8B
LG AI EXAONE 3.5 2.4B
LLAMA Bllossom 3.2 3B - 공개된 모든 한국어 데이터를 학습.
- 다양한 크기의 모델을 지원.
- 영어 성능도 뛰어남.
- 3.2 버전은 3B를 넘는 모델을 지원해주지 않음.
LLAMA Bllossom 3 8B
LLAMA Bllossom 3 8B(경량화)
LLAMA AICA 3.2 5B - Vision 능력 까지 탑재된 멀티모달 모델. - Vision 능력으로 인해 언어 능력 저하.
Yanolja EEVE 1.0 10.8B - 2024 한국어 전용 SOTA 모델. - 좋지 않은 성능
Yanolja EEVE 1.0 2.8B

 

테스트 조건

1. 각 모델이 최적의 성능을 발휘할 수 있도록 사전에 프롬프트와 파라미터 조정.
2. 일반 성능 테스트 : 일반적인 길이의 회의(20 ~ 30분)를 처리.
3. 스트레스 테스트 : 상당한 길이의 회의(3시간, 3300줄 분량)를 처리.
4. 위 조건들로 진행 후 다양한 지표들을 직접 분석.
 

테스트 결과

사용 GPU : RTX 4090

모델 이름 모델
크기
요약
성능
처리
속도
리소스
사용률
양식에
잘맞추나
GPT 4o mini 비공개 O O O O
EXAONE 3.5 32B 너무 커 작동 불가
EXAONE 3.5 7.8B O O O O
EXAONE 3.5 2.4B O O O O
Bllossom 3.2 3B - - - O
Bllossom 3 8B O O O O
Bllossom 3 8B (경량화) O O O O
AICA 3.2 5B - - - O
EEVE 1.0 10.8B - - - O
EEVE 1.0 2.8B - - - O

 

새로운 발견

 현재 딥러닝 모델은 높은 성능을 위해 모델 크기를 키우고 있습니다. 하지만 모델 크기는 비용의 상승으로 이어지고 그 대안으로 비용을 줄이는 아키텍처를 개발하는 연구가 트렌드입니다. 그럼에도 모델 구조의 한계가 있고 그것은 입력 데이터의 크기의 한계로 이어집니다. 특히 LLM에서는 입력 데이터가 길어지면 초반부 입력한 데이터에 대한 정보 손실이 일어납니다. 3번 스트레스 테스트를 진행하면서 모든 모델들(GPT 포함)이 길이 문제로 처리를 할 수 없었습니다. 그러던 중 매우 긴 회의록을 효율적으로 처리하기 위한 새로운 로직을 발견하였고 기존 로직에 비해 엄청난 성능 향상을 이루었습니다. 여기서 성능은 정보의 보존성 입니다. 이 매우 긴 회의록 처리 로직을 2번 일반 성능에도 적용 해보니 매우 큰 성능 향상을 동일하게 이루었습니다. 말로 표현하기에는 한계가 있으니 기존 로직과 새로 구성한 로직 구조를 그려보겠습니다.

 

728x90