nvidia(3)
-
NeMo Speaker Recognition(SR) 성능 올리기
서론https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/titanet_large TitaNet-L | NVIDIA NGCTitaNet model for Speaker Verification and Diarization taskscatalog.ngc.nvidia.com NVIDIA NeMo Framework에서는 오디오 관련 다양한 라이브러리를 지원한다. 특히 TitaNet을 기반으로 하는 Speaker Recognition Pretrained Model은 성능이 매우 우수 하다. 더욱이 별다른 파인튜닝 작업을 거치지 않아도 좋은 성능을 자랑 한다. 필자도 몇 번 학습을 진행했으나 유의미한 효과는 얻지 못했다. 하지만 모델을 도와줄 수 있는 알고리즘..
2025.05.25 -
NeMo speaker embedding model(TitaNet-L) FInetuning 코드
2025.02.03 - [R&D] - NeMo speaker embedding model(TitaNet-L) 학습 코드 NeMo speaker embedding model(TitaNet-L) 학습 코드공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocemeerkat-developer.tistory.com위 학습을 무조건 선행 해보고 진행!공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an..
2025.02.03 -
NeMo speaker embedding model(TitaNet-L) 학습 코드
공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocessimport tarfileimport wget########################################## 1. an4 실험 데이터 다운로드 ############################################ *** 데이터 구조 ***# ./data/an4/wav/an4clstk/화자별 폴더/음성데이터 13개(모두가 똑같은 스크립트를 읽음)data_dir = os.path.join('path_your_d..
2025.02.03