emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation(23 DEC 2023)
2025. 2. 14. 13:27ㆍ친해지기, 논문
* 원문 논문 아카이브
https://arxiv.org/abs/2312.15185
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation
We propose emotion2vec, a universal speech emotion representation model. emotion2vec is pre-trained on open-source unlabeled emotion data through self-supervised online distillation, combining utterance-level loss and frame-level loss during pre-training.
arxiv.org
1. Introduction
- 음성에서 감정 표현 추출은 음성 감정 인식(SER) 및 감정 분석과 같은 작업의 필수 영역.
- 전통적 방법은 FBanks(필터 뱅크), MFCCs(멜 주파수 켑스터럼 계수)를 사용. -> 의미 정보가 충분하지 않음.
- SSL(음성 기반 자기 지도 학습)은 감정 작업에 완전히 적합하지 않고 미세 조정에 큰 비용요구.
- Vesper은 범용 표현 능력 입증이 필요.
- 이 같은 이유로 첫 범용 감정 표현 모델인 emotion2vec을 제안.
2. Related Work
2.1 Speech-based SSL
- 자기 주도 학습은 표현 학습 분야에서 놀라운 성공.
- 음성 표현 학습을 위한 모든 SSL 모델은 사용되는 자기 지도 목표에 따라 두 가지 범주로 분류.
- 오프라인 목표 : 사전에 잘 훈련된 교사 모델이 필요해 자기 지도 목표를 추출.(HuBERT, WavLM, PBERT, MonoBERT, PolyBERT)
- 온라인 목표 : 교사 모델이 필요하지 않으며 학습 단계에서 교사 모델이 지속적으로 업데이트.(MLM, data2vec, CADINO)
- emotion2vec은 발화 수준 손실(utterance-level loss)과 프레임 수준 손실(frame-level loss)을 결합한 훈련.
2.2 Speech Emotion Representation
- 이전 대부분 연구에서는 음성 사전 훈련 모델(Pepino et al., 2021; Li et al., 2022)을 직접 사용하거나 Finetuning 하여 사용.
- 최근 연구 data2vec도 좋은 표현 능력.
3. Method
- emotion2vec의 핵심은 온라인 증류 패러다임(Online Distillation paradigm)을 사용하여 발화 수준 손실(Utterance-level Loss)과 프레임 수준 손실(Frame-level Loss)로 모델을 훈련하는 것.
3.1 Model Pipeline
- 위 그림과 같이 emotion2vec는 사전 훈련 단계에서 교사 네트워크(T)와 학생 네트워크(S)로 구성.
- 두 네트워크는 다층 컨볼루션 신경망으로 구성된 특징 추출기(F)와 다층 트랜스포머로 구성된 백본 네트워크(B)를 포함한 동일한 모델 아키텍처를 공유.
- 원시 오디오 발화 X = [x₁, ···, xₙₓ]가 주어지면, 교사 T와 학생 S는 각각 특징 추출기 Fₜ와 Fₛ를 사용하여 다운샘플링된 특징 Z = [z₁, ···, zₙ𝓏]를 얻음.
- 교사 네트워크(T) : 다운 샘플링 된 특징 Z는 백본 네트워크 B에 직접 입력.
- 학생 네트워크(S)
- 다운 샘플링 된 특징 Z는 각 프레임의 시작으로 확률 p에따라 l개의 연속 프레임이 마스킹.
- 학습 가능한 발화 임베딩 U가 백본 네트워크 B에 입력되기 전 앞에 배치.
3.2 Utterance-level Loss
- 발화 수준 손실은 전역 감정을 학습하기 위한 발화 수준의 전제 작업을 구성.
- Y^T와 U^S의 시계열 풀링을 사용.
- MSE를 사용하여 손실을 계산.
- 토큰 임베딩, 청크 임베딩, 글로벙 임베딩의 세 가지 방법 제안.
3.3 Frame-level Loss
- 프레임 수준 손실은 맥락 감정을 학습하기 위한 프레임 단위의 전제 작업을 구성.
- 마스킹 된 부분의 손실만 계산 -> 마스크 언어 모델링(MLM)의 일반적 관행.
3.4 Online Distillation
- 온라인 증류 : 교사-학생 학습을 위한 자기 지도 학습 전략.
- 학생 네트워크 : 역전파를 통한 매개변수 업데이트.
- 손실 : 프레임 수준 손실과 발화 수준 손실의 조합.
- 교사 네트워크 : 지수 이동 평균(EMA)를 사용해 매개변수 업데이트.
- 학생 네트워크 : 역전파를 통한 매개변수 업데이트.
감상
- 모델을 써보다가 신기해서 리뷰한 논문.
- 감정 표현 모델에 대한 기본 지식의 부족 탓인지 이해가 어려움.
- 자기 주도 학습에 대해 조금 더 연구를 해봐야겠다.
728x90