2025. 3. 30. 19:28ㆍ읽어보기, 교재/만들면서 배우는 생성 AI
9.1 소개
- 2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.
- 복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.
- RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복.
9.2 GPT
- 오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.
- GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.
- 사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.
- ex. 분류, 유사성 점수매기기, 질의 응답.
9.2.2 어텐션
* 해당 개념들은 제가 리뷰한 논문 'Attention is all you need' 포스트로 대체하겠습니다.
2025.02.28 - [친해지기, 논문] - Attention Is All You Need(2 Aug 2023)
Attention Is All You Need(2 Aug 2023)
* 원문 논문 아카이브https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models
meerkat-developer.tistory.com
9.2.5. 코잘 마스킹
- 용어의 차이로 룩어헤드 마스크와 매우 흡사.
9.3 다른 트랜스포머
- GPT 모델은 디코더 트랜스포머로 한번에 하나의 토큰씩 텍스트 문자열 생성하고 코잘 마스킹을 사용.
- 인코더 트랜스포머는 코잘 마스킹을 사용하지 않음. => 입력에서 의미 있는문맥 표현을 추출.
- 인코더-디코더 트랜스포머는 언어 번역 같이 텍스트 문자열에서 다른 텍스트 문자열로 변환.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)
* 원문 논문 아카이브https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representatio
meerkat-developer.tistory.com
9.3.1 T5
- 인코더-디코더 구조를 사용하는 최신 트랜스포머.
- 번역, 언어 적합성, 문장 유사성, 문서 요약 등을 텍스트 투 텍스트 프레임워크로 재구성.
- 인코더 층에서 코잘 마스킹 사용하지 않음. => 단어 간의 모든 상호 종송석 학습.
- 디코더 층에서는 크로스 어텐션을 사용.
* 크로스 어텐션 : 멀티헤드 어텐션에서 셀프 어텐션을 제외한 개념. Q, K, V가 다른 위치에 있는 어텐션.
9.3.3 Chat GPT
- Chat GPT는 GPT 모델들을 미세 튜닝해서 사용해 만든 OpenAI 사의 서비스.
- 미세 튜닝할 때 RLHF(Reinforcement Learning from Human Feedback) 라는 기술 사용.
- 훈련 과정
- 지도학습 미세튜닝 : 사람이 작성한 프롬프트 및 원하는 출력으로 구성된 데이터셋 수집. 이를 사용해 지도학습으로 기본 언어 모델(GPT-3.5)을 미세 튜닝.
- 보상 모델링 : 레이블 부여한 사람에게 샘플링 된 모델 출력을 제시하고 최고부터 최악까지 출력 순위 지정. 이 기록으로 부여된 점수를 예측하는 보상 모델 학습.
- 강화 학습 : 1에서 미세 튜닝된 모델로 정책(Policy)이 되는 강화 학습 환경으로 대화 처리. 현재 상태(State)에서 정책은 행동(Action, 토큰 시퀀스)을 출력하고, 점수 출력. 그 다음 강화 학습 알고리즘인 PPO로 보상 극대화.
'읽어보기, 교재 > 만들면서 배우는 생성 AI' 카테고리의 다른 글
CHAPTER 10. 고급 GAN(Part 1.) (1) | 2025.04.06 |
---|---|
CHAPTER 8. 확산 모델 (0) | 2025.03.10 |
CHAPTER 7. 에너지 기반 모델 (0) | 2025.03.02 |
CHAPTER 6. 노멀라이징 플로 모델 (0) | 2025.02.23 |
CHAPTER 5. 자기회귀 모델 (4) | 2025.02.16 |