Multi-Stage Speaker Diarization for Noisy Classrooms(27 May 2025)

2025. 8. 17. 22:55친해지기, 논문

* 원문 논문 아카이브

https://arxiv.org/abs/2505.10879

 

Multi-Stage Speaker Diarization for Noisy Classrooms

Speaker diarization, the process of identifying "who spoke when" in audio recordings, is essential for understanding classroom dynamics. However, classroom settings present distinct challenges, including poor recording quality, high levels of background no

arxiv.org

 

Abstract

  • 교실 환경은 녹음 품질 저하, 높은 수준의배경 잡음, 발화의 중첨, 아동 음성의 정확한 포착 어려움 등 고유한 도전 과제 제시.
  • Nvidia의 NeMo Diarization Pipeline을 활용해 Multi-Stage 화자 분할 모델의 효과성 조사.
  • 연구 방법
    • Denoising이 화자 분할 정확도에 미치는 영향.
    • 프레임 단위 기반 VAD 모델들 비교.
    • ASR의 단어 단위 타임스탬프와 프레임 단위 VAD 예측을 통합한 하이브리드 VAD 접근법 연구.
  • 데이터셋
    • 교사와 학생 발화 구분.
    • 모든 화자 구분.
  • Denoising이 DER을 유의미하게 개선하고, 원본 + 잡음 제거 데이터를 학습에 활용해 성능 개선.
  • 하이브리드 VAD는 교사 - 학생 분할 실험에서최소 DER 17% 개선 했지만 화자 혼동(CER) 과 트레이드 오프가 확인.

 

1. INTRODUCTION

  • 교실 환경은 아동 음성 데이터 부족, 낮은 신호 대 잡음비(SNR), 비유창발화(Speech Disfluencies), 발화 중첩(Overlapping Speech), 다자간 잡음(Multi-Party Chatter) 등 다양한 요인이 작업을 복잡하게 만듬.
  • 자동 전사 성능을 올려도 "누가 언제 말했는가" 라는 핵심 문제 직면.
  • NeMo와 Pyannote 같은 최신 딥러닝 모델도 교실 환경에서는 DER이 52~62%의 성능. 
  • 일부 연구에서는 Fine-Tuning과 Speaker Enrollment(화자 등록)으로 개선을 이루었으나, 검증 데이터의 프라이버시 문제와 깨끗한 음성 샘플 확보 어려움으로 실험 재현이 어려움.
  • 본 논문에서는 NeMo Multi-Stage Speaker Diarization 모델을 체계적으로 탐구.
  • 교실 성능을 올리기 위해 Denoising, VAD 및 Speaker Embedding 모델을 적응.
  • 또한, Whisper ASR의 단어 단위 타임스탬프와 프레임 단위 VAD 출력을 결합한 하이브리드 VAD 접근법 제안.
  • 두 개의 데이터 셋 활용.
    • ClassBank : 연구 재현성 위해 공개된 교실 녹음 데이터 셋.
    • M-Powering Teachers(MPT) : 상댖거 고품질의 비공개 교실 녹음 데이터 셋.
  • 두 개의 데이터 셋으로 (a) 교사 - 학생 발화 분리, (b) 모든 화자 분리라는 두 가지 과제 수행.
  • Denoising은 누락 발화율을 줄여 DER 크게 개선.
  • Denoising 데이터와 원본 잡음 데이터 사용 학습은 성능 현저히 향상.
  • 하이브리드 VAD 모델 사용시 교사-학생 실험에서 최소 DER 17%, 모든 화자 실험에서 최소 DER 45% 달성 했지만, VAD 성능과 화자 혼동 간의 트레이드 오프도 확인.
  • 질적 오류 분석 결과 학생의 짧은 발화 구간이 DER에 큰 기여하고, 교사의 경우 발화 길이에 따라 균일하게 오류 분포.

 

3. DATA

3.3 Denoising Audio

  • 본 연구 에서는 "Sainburg et al.’s noise reduction algorithm" 을 전처리 단계에서 활용해 음성 명료도 향상.
  • 교실 뒤쪽에 앉은 학생들의 낮은 볼륨으로, 저진폭 발화가 함께 제거되는 문제 발생.
  • 따라서, 추론 시점에서 잡음 제거 하는 대신 데이터 증강 기법으로 활용.

 

4. DIARIZATION ARCHITECTURE

  • 본 연구의 모델 아키텍처는 NeMo의 Multi-Stage Diarization Pipeline을 기반으로 커스터 마이징.
  • 전체 파이프라인은 Figure 2. 와 같이 세 가지로구성.
    • VAD
    • Speaker Embedding Extraction
    • Clustering
  • End to End 모델과 달리, 각 구성 요소를 개별적으로 최적화. => 맞춤형 모델을 교체 적용할 수 있는 장점.

4.1 Voice Activity Detection

  •   네 가지 VAD 접근법 평가.
    • Segment-wise VAD : NeMo의 VAD. 전체 오디오 세그먼트에 발화가 존재하는지를 예측. 0.63초 길이, 0.01초 이동.
    • Frame-wise VAD : Wav2vec 기반. 각 20ms 프레임 단위로 발화 확률산출. RTTM 파일로 10 epochs, 1e-4 learning rate. 
    • ASR 기반 VAD : Whisper 단어 단위 타임스탬프. Large-v2(68만 시간 라벨링 데이터), Large-v3(100만 시간 약라벨 데이터 + 400만 시간 pseudo 라벨 데이터) 사용.
    • ASR + Frame-level VAD 결합형 하이브리드 VAD : Frame-wise VAD는 낮은 MISS, 높은 FA, Whisper은 반대이므로 서로 보완.
  • 성능 평가는 누락 탐지율(MISS)과 오탐율(FA)을 사용.

4.1.5 VAD Thresholds

  • 다음의 세가지 파라미터를 직접 조정.
    • Onset : 발화로 분류하는 확률 기준.
    • Offset : 발화로 분류된 프레임을 다시 무발화로 분류한느 기준.
    • α : Frame-wise VAD와 Whisper 간 균형 조절.

 

4.2 Speaker Embedding Extraction

  • 화자 임베딩 추출은 VAD로 탐지된 발화 구간을 고정 길이 벡터로 변환하는 과정.
  • 임베딩은 이후 Clustering에 사용, 품질이 높을수록 화자 혼동이 줄어듬.
  • 세 가지 화자 임베딩 모델 평가
    • TitaNet-Large
    • ECAPA-TDNN
    • SpeakerNet
  • TitaNet-Large가 가장 우수한 성능 보였으나, 본 데이터로 파인튜닝 수행시 오히려 성능 저하.(소규모 데이터로 과적합 가능성)
    • 따라서, Pretrained 버전 사용.

  • 일반적으로 화자 임베딩 추출에는 1.5~3.0초 구간 사용되지만, 이는 화자 수 예측에서 정밀도 떨어트림.
    • NeMo는 이를 해결하기 위해 Multi-Scale Segmentation 전략 도입(Figure 3.).
    • 다양한 길이의 구간에서 임베딩 추출 후 결합.

 

4.3 Clustering

  • 클러스터링이란 화자분할 파이프라인의 마지막 단계로, 화자 임베딩을 화자 정체성에 따라 그룹화.
  • 이 과정에서 Spectral Clustering 적용되며, 임베딩 유사도에 따라 라벨링.
  • 클러스터링은 화자 수 자동 예측, 사전에 정의된(oracle) 화자 수를 사용할 수도 있음.
  • 클러스터링은 지배적 화자를 과대대표, 소수 화자를 과소대표.
    • 따라서 oracle 화자 수 사용.
      • 교사-학생 분리 실험에서는 2명.
      • 모든 화자 분리 실험에서 실제 화자 수(Ground-truth) 사용.

 

5. Experiments and Results

  • 화자분할 성능 평가는 DER을 통해 이루어짐. 

5.1 Effects of Denoising on DER

  • NeMo의 기본(out-of-the-box, ootb) 설정 후 Denoising의 영향.
    • 교사-학생 발화 분리가 모든 화자 분리보다 더 좋은 성능. => 화자 수 차이 때문.
    • ClassBank 데이터셋이 MPT 데이터셋보다 DER 개선 효과. => ClassBank가 더 잡음 많음.
    • MISS(누락 검출)는 유의미하게줄였으나, FA(거짓 알람) 증가. => 잔여 잡음이 발화로 잘못 분류.
    • Denoised 데이터셋에서 noisy 데이터셋 보다 CER(혼동 오류)가 더 높음. => 더 많은 발화탐지할수록 화자 임베딩 모델에 제공되는 데이터가 많아져 오히려 잘못된 화자 할당 가능.
  • 발화 탐지 성능 향상과화자 식별 정확도 간의 트레이드오프.
    • 따라서 학습 데이터에는 Denoised 데이터 사용하되, 추론 단계에서는 미사용.

5.2 Effects of Data Augmentation on DER

  • 데이터 증강 시, 교사-학생 실험에서 모든 데이터셋에 대해 DER 개선. => 특히. MPT 데이터셋.
  • 모든 화자 분리 실험에서는 성능 다소 저하.

5.3 Comparing state-of-the-art model performances in classrooms

  • 두 가지 SOTA 모델에 대한 성능 비교.
    • NeMo : 잡음 제거 실험에서 가장 좋은 결과 사용.
    • Pyannote : 눈에 띄는 개선 효과가 없음.
  • 이는 Multi-stage Diarization 모델과 달리 end-to-end 신경망 기반 Diarization 모델은 Denoising 같은 전치리 기법에서 큰 이점을 얻지 못함.

5.4 Effects of VAD mosels on DER

  • Whisper ASR 단어 단위 타임스탬프를 프레임 단위 VAD 출력과 결합해 상호 보완적 장점 활용.
  • 각 데이터셋 마다 성능 우수한 모델이 다름.
    • ClassBank 데이터셋에서는 Whisper Large-V3
    • MPT 데이터셋에서는 Whisper Large-v2
  • 이 하이브리드 VAD 접근법은 최대 5.6%의 DER 개선.
  • 계산 비용이 허용된다면 파인튜닝 하는 것이 매우 도움.

5.5 Qualitative Error Analysis

  • DER이 VAD 성능과 강한 상관 관계.
  • 반면, CER(Confusion Error Rate) 은 DER과 약한 상관 관계.
  • 화자 임베딩 모델 개선은 실험 전반에서 중요한 기여가 드러남.
  • 세그먼트 길이와 화자분할 정확도 간의 명확한 관계.
    • 학생 발화
      • 세그먼트가 짧아질수록 일관되게 정확도 감소.
      • 성능 저하는 혼동 오류(CER) 증가.
      • ClassBank에서는 FA는 일정했지만, MPT는 짧은 세그먼트일수록 증가.
      • MISS는 모든 조건에서 낮게 유지 되었으며, 이는 주요 문제점이 CER과 FA.
    • 교사 발화
      • 학생 발화와유사한 패턴.
    • 짧은 세그먼트 에서 화자 분할 성능 개선 필수, 특히 아동 발화.

 

6. Conclusion and Futeure Work

  • 본 연구는 소음 많은 교실 환경에서 Multi-stage 화자 분할 모델의 효과성 입증.
    • Denois은 누락 발화 탐지를 줄임.
    • Denoised 데이터와 원본 잡음 데이터를 모두 활용한 학습은 모델의 강건성 강화.
    • 하이브리드 VAD 모델은 발화 탐지 성능 향상에 기여.
  • 향후 연구는 다음을 중점적으로 다룸.
    • 화자 임베딩 모델 개선.
    • Pyannote 같은 end-to-end 신경망 기반 화자 분할 모델 실험.
    • 언어 정보 통합(ex. ASR+ Diarization 통합 시스템)
    • 실제 교실 환경에서의 성능 향상.

 

8. Limitations

  • 본 연구의 데이터는 영어권 교실, 비교적 소규모 데이터.
  • 또한, 상당수는 고품질 장비로 녹음된 데이터.
  • 본 데이터셋에서는 사전 화자 등록 발화 샘플을 포함하지 않아 화자 분할 과제가 상당히 어려움.

 

감상

2025.08.12 - [연구하기, 지식] - NeMo Multi-Scale Diarization Decoder

 

NeMo Multi-Scale Diarization Decoder

Speaker Diarization Task는 정말 어려운 분야 같다. 괜찮은 모델을 찾고 파인튜닝을 해도 오디오의 음질이나 도메인에 너무 큰 영향을 받는다. 도출된 결과로 LLM을 통해 회의록을 만들기라도 하면 화

meerkat-developer.tistory.com

 오랜만에 매우 재미있고 쉽게 읽은 논문이었다. 비교적 어수선한 분위기에서 논문을 읽었지만 매우 술술 읽혔다. 저번 NeMo의 Multi-Scale Diarization 게시물에서 발견했던 논문이고 리뷰하기로 했었는데 리뷰하기를 잘했다. Diarization, VAD, ASR에 대한 기초적인 개념이 너무나도 잘들어 있다. 또한, Diarization에서 많은 분들이 고민했을 문제를 이 논문에서 콕 집어 주었다.

 다만, 이 부분을 시원하게 긁어주진 않은 것 같다. 물론, 추가로 연구해야하는 고민 거리들도 남겨주어 가치가 있는 논문이었다. Denoisig에 대해서는 나도 적용을 해보았지만 VAD에 대한 생각은 하지 못했다. Whisper의 모델도 무조건 크면 좋은 줄 알았는데데이터 특성에 따라 다르다니 몰랐다. 앞으로 DER 개선을 위해 해당 논문을 많이 참고해야다.     

728x90