'PPO' 태그의 글 목록

쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)

정의두 확률분포 P와 Q 사이의 차이를 측정하는 비대칭적 척도.분포 Q로 샘플링 했는데, 실제 분포가 P일 때의 "정보 손실"을 의미.값이 0 이면 동일한 분포이고 클수록 두 분포가 다름을 의미.비대칭적 분포P와 Q를 바꾸면 전혀 다른 값이 나옴.생성 모델을 기준으로 진짜 데이터 분포가 P이고, 학습 분포가 Q일때.P || Q : 생성 모델이 놓친 부분.Q || P : 생성 모델이 헛짓을 한 부분.엔트로피와의 관계엔트로피 : 확률분포 P의 엔트로피는 P가 얼마나 불확실한지를 수치화.=> 엔트로피가 높을수록 분포가 더 펴져 있고 불확실성이 높음.교차 엔트로피 : P를 따르는 샘플 Q가 얼마나 잘 예측하는가를 측정.=> 예측 분포 Q가 정답 분포 P를 얼마나 잘 근사하는지 판단.즉, KL 발산은 교차 엔트로..

2025.05.06

Proximal Policy Optimization Algorithms(28 Aug 2017)

*원문 논문 아카이브https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org1. Introduction 최근 신경망을 활용한 다양한 강화 학습 기법들이 제안. ..

2025.05.06

CHAPTER 9. 트랜스포머

9.1 소개2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복. 9.2 GPT오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.ex. 분류, 유사성 점수매기기, 질의 응답. 9.2.2 어텐션* 해당 개념들은 제가 리뷰한 논문 '..

2025.03.30

태그

최근글

댓글

아카이브

PPO(3)

티스토리툴바