emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation(23 DEC 2023)

2025. 2. 14. 13:27친해지기, 논문

* 원문 논문 아카이브

https://arxiv.org/abs/2312.15185

 

emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation

We propose emotion2vec, a universal speech emotion representation model. emotion2vec is pre-trained on open-source unlabeled emotion data through self-supervised online distillation, combining utterance-level loss and frame-level loss during pre-training.

arxiv.org

 

1. Introduction

  • 음성에서 감정 표현 추출은 음성 감정 인식(SER) 및 감정 분석과 같은 작업의 필수 영역.
  • 전통적 방법은 FBanks(필터 뱅크), MFCCs(멜 주파수 켑스터럼 계수)를 사용. -> 의미 정보가 충분하지 않음.
  • SSL(음성 기반 자기 지도 학습)은 감정 작업에 완전히 적합하지 않고 미세 조정에 큰 비용요구.
  • Vesper은 범용 표현 능력 입증이 필요.
  • 이 같은 이유로 첫 범용 감정 표현 모델인 emotion2vec을 제안.

 

2. Related Work

2.1 Speech-based SSL

  • 자기 주도 학습은 표현 학습 분야에서 놀라운 성공.
  • 음성 표현 학습을 위한 모든 SSL 모델은 사용되는 자기 지도 목표에 따라 두 가지 범주로 분류.
    1. 오프라인 목표 : 사전에 잘 훈련된 교사 모델이 필요해 자기 지도 목표를 추출.(HuBERT, WavLM, PBERT, MonoBERT, PolyBERT)
    2. 온라인 목표 : 교사 모델이 필요하지 않으며 학습 단계에서 교사 모델이 지속적으로 업데이트.(MLM, data2vec, CADINO)
  • emotion2vec은 발화 수준 손실(utterance-level loss)과 프레임 수준 손실(frame-level loss)을 결합한 훈련.

2.2 Speech Emotion Representation

  • 이전 대부분 연구에서는 음성 사전 훈련 모델(Pepino et al., 2021; Li et al., 2022)을 직접 사용하거나 Finetuning 하여 사용.
  • 최근 연구 data2vec도 좋은 표현 능력.

 

3. Method

  • emotion2vec의 핵심은 온라인 증류 패러다임(Online Distillation paradigm)을 사용하여 발화 수준 손실(Utterance-level Loss)과 프레임 수준 손실(Frame-level Loss)로 모델을 훈련하는 것.

3.1 Model Pipeline

  • 위 그림과 같이 emotion2vec는 사전 훈련 단계에서 교사 네트워크(T)와 학생 네트워크(S)로 구성.
  • 두 네트워크는 다층 컨볼루션 신경망으로 구성된 특징 추출기(F)와 다층 트랜스포머로 구성된 백본 네트워크(B)를 포함한 동일한 모델 아키텍처를 공유.
  • 원시 오디오 발화 X = [x₁, ···, xₙₓ]가 주어지면, 교사 T와 학생 S는 각각 특징 추출기 Fₜ와 Fₛ를 사용하여 다운샘플링된 특징 Z = [z₁, ···, zₙ𝓏]를 얻음.

  • 교사 네트워크(T) : 다운 샘플링 된 특징 Z는 백본 네트워크 B에 직접 입력.
  • 학생 네트워크(S)
    1. 다운 샘플링 된 특징 Z는 각 프레임의 시작으로 확률 p에따라 l개의 연속 프레임이 마스킹.
    2. 학습 가능한 발화 임베딩 U가 백본 네트워크 B에 입력되기 전 앞에 배치.

3.2 Utterance-level Loss

  • 발화 수준 손실은 전역 감정을 학습하기 위한 발화 수준의 전제 작업을 구성.
  • Y^T와 U^S의 시계열 풀링을 사용.
  • MSE를 사용하여 손실을 계산.
  • 토큰 임베딩, 청크 임베딩, 글로벙 임베딩의 세 가지 방법 제안.

3.3 Frame-level Loss

  • 프레임 수준 손실은 맥락 감정을 학습하기 위한 프레임 단위의 전제 작업을 구성.
  • 마스킹 된 부분의 손실만 계산 -> 마스크 언어 모델링(MLM)의 일반적 관행.

3.4 Online Distillation

  • 온라인 증류 : 교사-학생 학습을 위한 자기 지도 학습 전략.
    • 학생 네트워크 : 역전파를 통한 매개변수 업데이트.
      • 손실 : 프레임 수준 손실과 발화 수준 손실의 조합.
    • 교사 네트워크 : 지수 이동 평균(EMA)를 사용해 매개변수 업데이트.

학생 네트워트
교사 네트워크

 

감상

  • 모델을 써보다가 신기해서 리뷰한 논문.
  • 감정 표현 모델에 대한 기본 지식의 부족 탓인지 이해가 어려움.
  • 자기 주도 학습에 대해 조금 더 연구를 해봐야겠다.
728x90