CHAPTER 9. 트랜스포머

2025. 3. 30. 19:28읽어보기, 교재/만들면서 배우는 생성 AI

9.1 소개

  • 2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.
  • 복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.
  • RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복.

 

9.2 GPT

  • 오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.
  • GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.
  • 사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.
  • ex. 분류, 유사성 점수매기기, 질의 응답. 

9.2.2 어텐션

* 해당 개념들은 제가 리뷰한 논문 'Attention is all you need' 포스트로 대체하겠습니다.

2025.02.28 - [친해지기, 논문] - Attention Is All You Need(2 Aug 2023)

 

Attention Is All You Need(2 Aug 2023)

* 원문 논문 아카이브https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models

meerkat-developer.tistory.com

9.2.5. 코잘 마스킹

  • 용어의 차이로 룩어헤드 마스크와 매우 흡사.

 

9.3 다른 트랜스포머

  • GPT 모델은 디코더 트랜스포머로 한번에 하나의 토큰씩 텍스트 문자열 생성하고 코잘 마스킹을 사용.
  • 인코더 트랜스포머는 코잘 마스킹을 사용하지 않음. => 입력에서 의미 있는문맥 표현을 추출.
  • 인코더-디코더 트랜스포머는 언어 번역 같이 텍스트 문자열에서 다른 텍스트 문자열로 변환. 

인코더-디코더 트랜스포머는 텍스트 생성에 사용되지 않는다.

2025.02.20 - [친해지기, 논문] - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)

* 원문 논문 아카이브https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representatio

meerkat-developer.tistory.com

 

9.3.1 T5

T5 개요

  • 인코더-디코더 구조를 사용하는 최신 트랜스포머.
  • 번역, 언어 적합성, 문장 유사성, 문서 요약 등을 텍스트 투 텍스트 프레임워크로 재구성.
  • 인코더 층에서 코잘 마스킹 사용하지 않음. => 단어 간의 모든 상호 종송석 학습.
  •  디코더 층에서는 크로스 어텐션을 사용.

* 크로스 어텐션 : 멀티헤드 어텐션에서 셀프 어텐션을 제외한 개념. Q, K, V가 다른 위치에 있는 어텐션.

9.3.3 Chat GPT

  • Chat GPT는 GPT 모델들을 미세 튜닝해서 사용해 만든 OpenAI 사의 서비스.
  • 미세 튜닝할 때 RLHF(Reinforcement Learning from Human Feedback) 라는 기술 사용.
  • 훈련 과정
    1. 지도학습 미세튜닝 : 사람이 작성한 프롬프트 및 원하는 출력으로 구성된 데이터셋 수집. 이를 사용해 지도학습으로 기본 언어 모델(GPT-3.5)을 미세 튜닝.
    2. 보상 모델링 : 레이블 부여한 사람에게 샘플링 된 모델 출력을 제시하고 최고부터 최악까지 출력 순위 지정. 이 기록으로 부여된 점수를 예측하는 보상 모델 학습.
    3. 강화 학습 : 1에서 미세 튜닝된 모델로 정책(Policy)이 되는 강화 학습 환경으로 대화 처리. 현재 상태(State)에서 정책은 행동(Action, 토큰 시퀀스)을 출력하고, 점수 출력. 그 다음 강화 학습 알고리즘인 PPO로 보상 극대화.

728x90