gpt(2)
-
Proximal Policy Optimization Algorithms(28 Aug 2017)
*원문 논문 아카이브https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org1. Introduction 최근 신경망을 활용한 다양한 강화 학습 기법들이 제안. ..
2025.05.06 -
CHAPTER 9. 트랜스포머
9.1 소개2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복. 9.2 GPT오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.ex. 분류, 유사성 점수매기기, 질의 응답. 9.2.2 어텐션* 해당 개념들은 제가 리뷰한 논문 '..
2025.03.30