쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)
2025. 5. 6. 20:23ㆍ연구하기, 지식
정의
- 두 확률분포 P와 Q 사이의 차이를 측정하는 비대칭적 척도.
- 분포 Q로 샘플링 했는데, 실제 분포가 P일 때의 "정보 손실"을 의미.
- 값이 0 이면 동일한 분포이고 클수록 두 분포가 다름을 의미.
비대칭적 분포
- P와 Q를 바꾸면 전혀 다른 값이 나옴.
- 생성 모델을 기준으로 진짜 데이터 분포가 P이고, 학습 분포가 Q일때.
- P || Q : 생성 모델이 놓친 부분.
- Q || P : 생성 모델이 헛짓을 한 부분.
엔트로피와의 관계
- 엔트로피 : 확률분포 P의 엔트로피는 P가 얼마나 불확실한지를 수치화.
=> 엔트로피가 높을수록 분포가 더 펴져 있고 불확실성이 높음.
- 교차 엔트로피 : P를 따르는 샘플 Q가 얼마나 잘 예측하는가를 측정.
=> 예측 분포 Q가 정답 분포 P를 얼마나 잘 근사하는지 판단.
- 즉, KL 발산은 교차 엔트로피에서 진짜 엔트로피를 뺀 값.
활용
- PPO
- 이전 정책과 새 정책 간 변화량 측정. => 즉, 정책간 변화량.
- KL 발산이 목표 값보다 크면 페널티 부여. => KL 페널티 방식.
- 신중한 정책 변화를 유도.
- 이미지 생성 모델
- 인코더가 학습한 잠재 분포가 사전 정의된 잠재 분포와 가깝도록 유도. => 잠재 공간 정규화.
- 머신러닝
- 모델 예측 분포와 실제 정답 분포 간 차이를 측정. => cross-entropy
728x90
'연구하기, 지식' 카테고리의 다른 글
파이썬에서 오디오 파일 다루기(pydub, soundfile) (0) | 2025.05.25 |
---|---|
API 통신과 소켓 통신 (4) | 2025.05.18 |
Stable Diffusion Basemodel 로컬에서 사용하기 (0) | 2025.05.06 |
Whisper vs Faster-Whisper : 성능 비교 (0) | 2025.02.03 |
NeMo speaker embedding model(TitaNet-L) FInetuning 코드 (0) | 2025.02.03 |