Nemo(4)
-
Multi-Stage Speaker Diarization for Noisy Classrooms(27 May 2025)
* 원문 논문 아카이브https://arxiv.org/abs/2505.10879 Multi-Stage Speaker Diarization for Noisy ClassroomsSpeaker diarization, the process of identifying "who spoke when" in audio recordings, is essential for understanding classroom dynamics. However, classroom settings present distinct challenges, including poor recording quality, high levels of background noarxiv.org Abstract교실 환경은 녹음 품질 저하, 높은 수준의배경 잡..
2025.08.17 -
NeMo Multi-Scale Diarization Decoder
Speaker Diarization Task는 정말 어려운 분야 같다. 괜찮은 모델을 찾고 파인튜닝을 해도 오디오의 음질이나 도메인에 너무 큰 영향을 받는다. 도출된 결과로 LLM을 통해 회의록을 만들기라도 하면 화자 분리가 하나라도 잘못되면 재수 없게 회의록은 엉망이 되고 만다. 그러던 중 상당히 흥미로운 모델을 찾았다. NeMo Framework에 Speaker Diarization이다. 'Multi-Scale Diarization Decoder' 이란 명칭이 붙어있고 논문에 따른 성능이나, 도메인에 따른 Pretrained Model 지원 여부, 편리한 학습을 제공한다. 많은 곳에서 그 동안은 많은 곳에서 그랬던 것처럼 Pyannote를 파인튜닝 후 사용 중이었는데 결과가 놀랍다. 논문https:/..
2025.08.12 -
NeMo speaker embedding model(TitaNet-L) FInetuning 코드
2025.02.03 - [R&D] - NeMo speaker embedding model(TitaNet-L) 학습 코드 NeMo speaker embedding model(TitaNet-L) 학습 코드공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocemeerkat-developer.tistory.com위 학습을 무조건 선행 해보고 진행!공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an..
2025.02.03 -
NeMo speaker embedding model(TitaNet-L) 학습 코드
공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocessimport tarfileimport wget########################################## 1. an4 실험 데이터 다운로드 ############################################ *** 데이터 구조 ***# ./data/an4/wav/an4clstk/화자별 폴더/음성데이터 13개(모두가 똑같은 스크립트를 읽음)data_dir = os.path.join('path_your_d..
2025.02.03