emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation(23 DEC 2023)

emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation(23 DEC 2023)

2025. 2. 14. 13:27ㆍ친해지기, 논문

* 원문 논문 아카이브

emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation

We propose emotion2vec, a universal speech emotion representation model. emotion2vec is pre-trained on open-source unlabeled emotion data through self-supervised online distillation, combining utterance-level loss and frame-level loss during pre-training.

arxiv.org

1. Introduction

음성에서 감정 표현 추출은 음성 감정 인식(SER) 및 감정 분석과 같은 작업의 필수 영역.
전통적 방법은 FBanks(필터 뱅크), MFCCs(멜 주파수 켑스터럼 계수)를 사용. -> 의미 정보가 충분하지 않음.
SSL(음성 기반 자기 지도 학습)은 감정 작업에 완전히 적합하지 않고 미세 조정에 큰 비용요구.
Vesper은 범용 표현 능력 입증이 필요.
이 같은 이유로 첫 범용 감정 표현 모델인 emotion2vec을 제안.

2. Related Work

2.1 Speech-based SSL

자기 주도 학습은 표현 학습 분야에서 놀라운 성공.
음성 표현 학습을 위한 모든 SSL 모델은 사용되는 자기 지도 목표에 따라 두 가지 범주로 분류.
1. 오프라인 목표 : 사전에 잘 훈련된 교사 모델이 필요해 자기 지도 목표를 추출.(HuBERT, WavLM, PBERT, MonoBERT, PolyBERT)
2. 온라인 목표 : 교사 모델이 필요하지 않으며 학습 단계에서 교사 모델이 지속적으로 업데이트.(MLM, data2vec, CADINO)
emotion2vec은 발화 수준 손실(utterance-level loss)과 프레임 수준 손실(frame-level loss)을 결합한 훈련.

2.2 Speech Emotion Representation

이전 대부분 연구에서는 음성 사전 훈련 모델(Pepino et al., 2021; Li et al., 2022)을 직접 사용하거나 Finetuning 하여 사용.
최근 연구 data2vec도 좋은 표현 능력.

3. Method

emotion2vec의 핵심은 온라인 증류 패러다임(Online Distillation paradigm)을 사용하여 발화 수준 손실(Utterance-level Loss)과 프레임 수준 손실(Frame-level Loss)로 모델을 훈련하는 것.

3.1 Model Pipeline

위 그림과 같이 emotion2vec는 사전 훈련 단계에서 교사 네트워크(T)와 학생 네트워크(S)로 구성.
두 네트워크는 다층 컨볼루션 신경망으로 구성된 특징 추출기(F)와 다층 트랜스포머로 구성된 백본 네트워크(B)를 포함한 동일한 모델 아키텍처를 공유.
원시 오디오 발화 X = [x₁, ···, xₙₓ]가 주어지면, 교사 T와 학생 S는 각각 특징 추출기 Fₜ와 Fₛ를 사용하여 다운샘플링된 특징 Z = [z₁, ···, zₙ𝓏]를 얻음.

교사 네트워크(T) : 다운 샘플링 된 특징 Z는 백본 네트워크 B에 직접 입력.
학생 네트워크(S)
1. 다운 샘플링 된 특징 Z는 각 프레임의 시작으로 확률 p에따라 l개의 연속 프레임이 마스킹.
2. 학습 가능한 발화 임베딩 U가 백본 네트워크 B에 입력되기 전 앞에 배치.

3.2 Utterance-level Loss

발화 수준 손실은 전역 감정을 학습하기 위한 발화 수준의 전제 작업을 구성.
Y^T와 U^S의 시계열 풀링을 사용.
MSE를 사용하여 손실을 계산.
토큰 임베딩, 청크 임베딩, 글로벙 임베딩의 세 가지 방법 제안.

3.3 Frame-level Loss

프레임 수준 손실은 맥락 감정을 학습하기 위한 프레임 단위의 전제 작업을 구성.
마스킹 된 부분의 손실만 계산 -> 마스크 언어 모델링(MLM)의 일반적 관행.

3.4 Online Distillation

온라인 증류 : 교사-학생 학습을 위한 자기 지도 학습 전략.
- 학생 네트워크 : 역전파를 통한 매개변수 업데이트.
  - 손실 : 프레임 수준 손실과 발화 수준 손실의 조합.
- 교사 네트워크 : 지수 이동 평균(EMA)를 사용해 매개변수 업데이트.

감상

모델을 써보다가 신기해서 리뷰한 논문.
감정 표현 모델에 대한 기본 지식의 부족 탓인지 이해가 어려움.
자기 주도 학습에 대해 조금 더 연구를 해봐야겠다.

728x90

저작자표시 비영리 동일조건

'친해지기, 논문' 카테고리의 다른 글

U-Net: Convolutional Networks for BiomedicalImage Segmentation(18 May 2015) (1)	2025.03.30
Attention Is All You Need(2 Aug 2023) (2)	2025.02.28
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019) (0)	2025.02.20
A Light CNN for Deep Face Representation with Noisy Labels(12 Aug 2018) (2)	2025.02.11
Large Concept Models: Language Modeling in a Sentence Representation Space(15 Dec 2024, Meta) (0)	2025.02.09

태그

최근글

댓글

아카이브

* 원문 논문 아카이브

1. Introduction

2. Related Work

3. Method

감상

'친해지기, 논문' 카테고리의 다른 글

관련글

티스토리툴바