Large Concept Models: Language Modeling in a Sentence Representation Space(15 Dec 2024, Meta)
2025. 2. 9. 23:31ㆍ친해지기, 논문
* 원문 논문 아카이브
https://arxiv.org/pdf/2412.08821v2
0. Abstract
- 현재 LLM 기술을 입력을 처리하고 출력할 때 토큰 수준에서 작동.
=> 단어 이상의 여러 추상화 수준에서 정보를 분석하고 창의적인 내용을 생성하는 인간과 대조적.
=> "Concept" 라 부르는 고차원 의미 표현에서 작동하는 아키텍처 Large Concept Model(LCM)을 제안.
- 200개 언어에 대한 인상적인 제로샷 일반화 성능을 보이며 기존 LLM을 능가.
* 제로샷 일반화 성능 : 학습하지 않은 클래스를 인식하는 것. 모델이 클래스 간의 관계나 속성을 통해 일반화할 수 있는 능력.
1. Introduction
- 현재 LLM은 더 많은 언어 또는 양식으로 확장하기 위해서는 추가 데이터 주입.
- 또한 모두 긴 맥락의 이전 토큰에서 다음 토큰을 예측하기 위한 트렌스포머 기반 기초 아키텍처를 사용하고 있음.
- 트랜스포머 아키텍처는 인간 지능의 중요한 특성인 명시적 추론 및 추상화 수준에서의 계획을 놓치고 단어 수준에서만 작동.
- 인간의 뇌는 복잡한 작업이나 긴 문서를 작성할 때 Top-Down process를 사용함.
- 전반적 구조를 높은 수준에서 계획.
- 단계별로 낮은 수준의 세부사항 추가.
- 이러한 고차원 정보 처리 및 명시적 계층 구조를 하기 위해서는 토큰 수준 처리에서 벗어나 고차원 임베딩 공간 에서의 추론 접근 방식을 제안.
=> 현재 LLM 기술이 영어 중심적이고 토큰 기반인 것과 대조적.
- 본 연구에서는 SONAR(Duquenne et al., 2023b) 문장 임베딩을 채택.
- 200개의 언어에서 텍스트 입 출력 지원.
- 76개의 언어에서 음성 입력, 영어 출력을 지원.
- 그림 1.의 왼쪽은 임베딩 공간에서의 추론을 시각화 한 것.
- 다섯 개의 개념 표현을 두 개로 맵핑 하는 함수로 구현.
- 그림 1.의 오른쪽의 전체 아키텍처와 처리 흐름을 요약.
- 입력은 문장으로 분할되고, 각 문장은 SONAR로 인코딩 되어 Sequence of Concepts(문장 임베딩)을 생성.
- LCM을 통해 처리되어 출력에서 새로운 Sequence of Concepts 생성.
- 생성된 Concepts는 SONAR에 의해 디코딩.
- 인코더와 디코더는 훈련 되지 않음.
- LCM의 출력에서 변경되지 않고도 다른 언어 또는 양식으로 디코딩 될 수 있음. => 제로샷(추가 데이터와 파인튜닝 불필요).
- 일반적인 트랜스포머 모델의 시퀀스 길이에 대한 제곱으로 복잡성이 증가 하지만 LCM은 짧은 시퀀스에서 동작.
감상
- RAG 를 공부하다가 접하게 된 흥미로운 논문.
- 현재 LLM들은 입력 데이터의 한계로 인해 많은 문제를 겪고 있고 나 또한 최대한 많은 정보 보존을 위한 알고리즘을 개발하고 시도중.
- 이러한 LCM이 보편화 된다면 위의 문제를 줄일 수 있을 것 같아 놀라움.
- 또한 현재 LLM 서비스가 영어 중심인점(온전한 LLAMA를 쓰고 싶다...)과 제3국 보급을 위한 소중한 아이디어로 보임.
- 앞으로는 SONAR 임베딩에 대해 공부해볼 예정.
- 이러한 논문과 학습 코드가 무료로 풀리다니 META는 선망의 대상.
- META 매수 하려 했지만 최고점.
- 임베딩은 진짜 흥미로운 영역 같다.
- 위 아이디어를 바탕으로 개발하고 있는 LLM 서비스에 접목 가능할 것 같다.
- 항상 고민중이었던 것이 TimeSeries Forecasting에 Text Embedding을 적용하고 싶었던 것이었는데 아이디어를 얻었다.(조금)
728x90