연구하기, 지식(4)
-
Whisper vs Faster-Whisper : 성능 비교
환경테스트 음원 : 10분토론.wav길이 : 10분샘플레이트 : 16,000채널 : 모노GPU : RTX 40905회 실행 시 평균을 결과에 반영 API 모델 시간(초) 점유율(MB) 비고 Whisper Large-v3 165.44 10043 Whisper Large-v3-turbo 20.28 5517 Whisper Turbo 20.39 5517 Faster Whisper Large-v3 47.55 5341 Faste..
2025.02.03 -
NeMo speaker embedding model(TitaNet-L) FInetuning 코드
2025.02.03 - [R&D] - NeMo speaker embedding model(TitaNet-L) 학습 코드 NeMo speaker embedding model(TitaNet-L) 학습 코드공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocemeerkat-developer.tistory.com위 학습을 무조건 선행 해보고 진행!공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an..
2025.02.03 -
NeMo speaker embedding model(TitaNet-L) 학습 코드
공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocessimport tarfileimport wget########################################## 1. an4 실험 데이터 다운로드 ############################################ *** 데이터 구조 ***# ./data/an4/wav/an4clstk/화자별 폴더/음성데이터 13개(모두가 똑같은 스크립트를 읽음)data_dir = os.path.join('path_your_d..
2025.02.03 -
한국어 LLM 모델 별 요약 성능
테스트 모델모회사모델 이름모델 크기장점단점OpenAIGPT 4o mini비공개- 최고의 언어 능력.- 뛰어난 처리 속도.- 외부 GPU 리소스 사용.- 무조건 과금.- 무조건 외부 GPU 사용(기업 내부 프로젝트에서 사용 불가).- 정보의 불투명성.LG AIEXAONE 3.532B- 나온지 2개월 밖에 안된 최신 모델.- LG에서 개발.- 32B 모델은 4090에서 조차 돌아가지 않는 너무 많은 리소스 사용.- 경량화 모델이 없어서 활용도 제한.LG AIEXAONE 3.57.8BLG AIEXAONE 3.52.4BLLAMABllossom 3.23B- 공개된 모든 한국어 데이터를 학습.- 다양한 크기의 모델을 지원.- 영어 성능도 뛰어남.- 3.2 버전은 3B를 넘는 모델을 지원해주지 않음.LLAMABllo..
2025.02.03