쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)

2025. 5. 6. 20:23연구하기, 지식

정의

수식

  • 두 확률분포 P와 Q 사이의 차이를 측정하는 비대칭적 척도.
  • 분포 Q로 샘플링 했는데, 실제 분포가 P일 때의 "정보 손실"을 의미.
  • 값이 0 이면 동일한 분포이고 클수록 두 분포가 다름을 의미.

비대칭적 분포

비대칭적 분포

  • P와 Q를 바꾸면 전혀 다른 값이 나옴.
  • 생성 모델을 기준으로 진짜 데이터 분포가 P이고, 학습 분포가 Q일때.
    • P || Q : 생성 모델이 놓친 부분.
    • Q || P : 생성 모델이 헛짓을 한 부분.

엔트로피와의 관계

엔트로피 수식

  • 엔트로피 : 확률분포 P의 엔트로피는 P가 얼마나 불확실한지를 수치화.

=> 엔트로피가 높을수록 분포가 더 펴져 있고 불확실성이 높음.

교차 엔트로피 수식

  • 교차 엔트로피 : P를 따르는 샘플 Q가 얼마나 잘 예측하는가를 측정.

=> 예측 분포 Q가 정답 분포 P를 얼마나 잘 근사하는지 판단.

다르게 표현한 KL 발산 수식

  • 즉, KL 발산은 교차 엔트로피에서 진짜 엔트로피를 뺀 값.

활용

  • PPO
    • 이전 정책과 새 정책 간 변화량 측정. => 즉, 정책간 변화량.
    • KL 발산이 목표 값보다 크면 페널티 부여. => KL 페널티 방식.
    • 신중한 정책 변화를 유도.
  • 이미지 생성 모델
    • 인코더가 학습한 잠재 분포가 사전 정의된 잠재 분포와 가깝도록 유도. => 잠재 공간 정규화.
  • 머신러닝
    • 모델 예측 분포와 실제 정답 분포 간 차이를 측정. => cross-entropy
728x90