CHAPTER 9. 트랜스포머

CHAPTER 9. 트랜스포머

2025. 3. 30. 19:28ㆍ읽어보기, 교재/만들면서 배우는 생성 AI

9.1 소개

2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.
복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.
RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복.

9.2 GPT

오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.
GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.
사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.
ex. 분류, 유사성 점수매기기, 질의 응답.

9.2.2 어텐션

* 해당 개념들은 제가 리뷰한 논문 'Attention is all you need' 포스트로 대체하겠습니다.

2025.02.28 - [친해지기, 논문] - Attention Is All You Need(2 Aug 2023)

Attention Is All You Need(2 Aug 2023)

* 원문 논문 아카이브https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models

meerkat-developer.tistory.com

9.2.5. 코잘 마스킹

용어의 차이로 룩어헤드 마스크와 매우 흡사.

9.3 다른 트랜스포머

GPT 모델은 디코더 트랜스포머로 한번에 하나의 토큰씩 텍스트 문자열 생성하고 코잘 마스킹을 사용.
인코더 트랜스포머는 코잘 마스킹을 사용하지 않음. => 입력에서 의미 있는문맥 표현을 추출.
인코더-디코더 트랜스포머는 언어 번역 같이 텍스트 문자열에서 다른 텍스트 문자열로 변환.

2025.02.20 - [친해지기, 논문] - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)

* 원문 논문 아카이브https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representatio

meerkat-developer.tistory.com

9.3.1 T5

인코더-디코더 구조를 사용하는 최신 트랜스포머.
번역, 언어 적합성, 문장 유사성, 문서 요약 등을 텍스트 투 텍스트 프레임워크로 재구성.
인코더 층에서 코잘 마스킹 사용하지 않음. => 단어 간의 모든 상호 종송석 학습.
디코더 층에서는 크로스 어텐션을 사용.

* 크로스 어텐션 : 멀티헤드 어텐션에서 셀프 어텐션을 제외한 개념. Q, K, V가 다른 위치에 있는 어텐션.

9.3.3 Chat GPT

Chat GPT는 GPT 모델들을 미세 튜닝해서 사용해 만든 OpenAI 사의 서비스.
미세 튜닝할 때 RLHF(Reinforcement Learning from Human Feedback) 라는 기술 사용.
훈련 과정
1. 지도학습 미세튜닝 : 사람이 작성한 프롬프트 및 원하는 출력으로 구성된 데이터셋 수집. 이를 사용해 지도학습으로 기본 언어 모델(GPT-3.5)을 미세 튜닝.
2. 보상 모델링 : 레이블 부여한 사람에게 샘플링 된 모델 출력을 제시하고 최고부터 최악까지 출력 순위 지정. 이 기록으로 부여된 점수를 예측하는 보상 모델 학습.
3. 강화 학습 : 1에서 미세 튜닝된 모델로 정책(Policy)이 되는 강화 학습 환경으로 대화 처리. 현재 상태(State)에서 정책은 행동(Action, 토큰 시퀀스)을 출력하고, 점수 출력. 그 다음 강화 학습 알고리즘인 PPO로 보상 극대화.

728x90

저작자표시 비영리 동일조건

'읽어보기, 교재 > 만들면서 배우는 생성 AI' 카테고리의 다른 글

CHAPTER 10. 고급 GAN(Part 1.) (1)	2025.04.06
CHAPTER 8. 확산 모델 (0)	2025.03.10
CHAPTER 7. 에너지 기반 모델 (0)	2025.03.02
CHAPTER 6. 노멀라이징 플로 모델 (0)	2025.02.23
CHAPTER 5. 자기회귀 모델 (4)	2025.02.16

태그

최근글

댓글

아카이브

9.1 소개

9.2 GPT

9.3 다른 트랜스포머

'읽어보기, 교재 > 만들면서 배우는 생성 AI' 카테고리의 다른 글

관련글

티스토리툴바