PPO(3)
-
쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)
정의두 확률분포 P와 Q 사이의 차이를 측정하는 비대칭적 척도.분포 Q로 샘플링 했는데, 실제 분포가 P일 때의 "정보 손실"을 의미.값이 0 이면 동일한 분포이고 클수록 두 분포가 다름을 의미.비대칭적 분포P와 Q를 바꾸면 전혀 다른 값이 나옴.생성 모델을 기준으로 진짜 데이터 분포가 P이고, 학습 분포가 Q일때.P || Q : 생성 모델이 놓친 부분.Q || P : 생성 모델이 헛짓을 한 부분.엔트로피와의 관계엔트로피 : 확률분포 P의 엔트로피는 P가 얼마나 불확실한지를 수치화.=> 엔트로피가 높을수록 분포가 더 펴져 있고 불확실성이 높음.교차 엔트로피 : P를 따르는 샘플 Q가 얼마나 잘 예측하는가를 측정.=> 예측 분포 Q가 정답 분포 P를 얼마나 잘 근사하는지 판단.즉, KL 발산은 교차 엔트로..
2025.05.06 -
Proximal Policy Optimization Algorithms(28 Aug 2017)
*원문 논문 아카이브https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org1. Introduction 최근 신경망을 활용한 다양한 강화 학습 기법들이 제안. ..
2025.05.06 -
CHAPTER 9. 트랜스포머
9.1 소개2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복. 9.2 GPT오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.ex. 분류, 유사성 점수매기기, 질의 응답. 9.2.2 어텐션* 해당 개념들은 제가 리뷰한 논문 '..
2025.03.30