-
CHAPTER 10. 고급 GAN(Part 1.)
10.2 ProGANNVIDIA Labs가 GAN의 훈련 속도와 안정성을 향상하려고 개발.전체 해상도 이미지에서 바로 GAN 훈련하는 대신 4 x 4 저해상도 이미지로 훈련한 다음 점진적으로 추가.후술할 StyleGAN의 기반.10.2.1 점진적 훈련GAN 은 생성자와 판별자가 두 개의 독립적 신경망 구축해 서로 이기기 위한 싸움.생성자가 처음부터 고해상도 이미지에서 고수준 학습으로 작동해 속도 느림.=> 저해상도 이미지로 경량 GAN 훈련 후 점진적 해상도 높임(이미지 보간 사용).이 후 잠재 입력 잡음 벡터 z를 4 x 4 x 3의이미지로 변환하도록 생성자 훈련.판별자는 4 x 4 x 3 입력 이미지를 스칼라 예측으로 변환. 4 x 4 모든 이미지를 학습하고 8 x 8 이미지를 학습. -> 신경망에 ..
-
U-Net: Convolutional Networks for BiomedicalImage Segmentation(18 May 2015)
* 원문 논문 아카이브https://arxiv.org/abs/1505.04597 U-Net: Convolutional Networks for Biomedical Image SegmentationThere is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotatedarxiv.org0. Abstract깊은 네트워크의 성공적인 훈..
-
CHAPTER 9. 트랜스포머
9.1 소개2017년 구글 브레인에서 발표한 논문이 어텐션 개념을 대중화.복잡한 순환 구조나 합성곱 구조가 필요하지 않고 어텐션 메커니즘에만 의존하는 '트랜스포머'로 강력한 신경망 구축.RNN은 한 번에 한 토큰씩 시퀀스 처리 => 트랜스포머가 단점 극복. 9.2 GPT오픈 AI에서 2018년 6월 발표한 논문 "Improving Language Understandiong by Generative Pre-Training"에서 GPT 소개.GPT는 사전 훈련 과정 동안 다음 단어 예측하도록 사전 훈련 -> 언어 모델링.사전 훈련된 모델을더 작고 작업에 특화된 데이터 셋 사용하여 미세 튜닝 및 파라미터 수정.ex. 분류, 유사성 점수매기기, 질의 응답. 9.2.2 어텐션* 해당 개념들은 제가 리뷰한 논문 '..
-
서피스 랩탑 7
학창 시절에는 부모님이 사주신 LG 노트북(혹은 gram)을 주로 사용했다.학업용으로 사주셨기 때문에 내 입맛은 그다지 들어가지 않았다.그렇게 군침을 흘리던 나는 대학에 들어가 내 돈으로 노트북을 샀다.유니크하지 하지만 튀진 않고, 한눈에 들어오지는 않지만 한 번쯤은 뒤돌아보게 되는 그런 테크템을 좋아하는 나의 심장을 두들기는 제품을 CES에서 발견했다.ASUS ZenBook Duo대학생인 나에게 최고급 모델은 부담스러웠고 엔트리 모델을 구매했다.영롱한 듀얼 스크린에서 오는 압도적 감성.가난한 자취생, 한솥 도시락 돈치 고기고기 먹을 돈으로 돈까스 도련님 사 먹어가며 할부금을 갚아 나갔다.ZenBook Duo는 영화관, 코딩 머신, 과제 머신, 추억 저장소가 되었고 나에게 상장, 성적 장학금, 졸업장을 ..
-
CHAPTER 8. 확산 모델
8.2 잡음 제거 확산 모델잡음 제거 확산 모델의 핵심 아이디어는 연속해서 매우 조금씩 이미지에서 잡음을 제거하도록 딥러닝 모델 훈련.8.2.2 정방향 확산 과정정방향 확산 : 원본 이미지 X_0를 많은 단계에 걸쳐 점짐적으로 잡음을 추가해 표준 가우스 잡음과 구별할 수 없게 만듬.=> T 단계에 걸쳐 잡음을 추가했을 때 X_T의 평균은 0이고 단위 분산.* 평균 0 : 추가된 잡음이 데이터의 평균 값을 변화시키지 않고 데이터의 중심을 이동시키지 않음.* 단위 분산 : 추가되는 잡음의 변동 폭이 일정해 모든 단계에서 동일하게 유지.이미지 X_t-1에 분산 β_t를 갖는 소량의 가우스 잡음을 추가해 새로운 이미지 X_t 생성하는 함수 q 정의 가능.* β_t는 정방향 확산 과정에서 각 타임 스텝 t에 추가..
-
CHAPTER 7. 에너지 기반 모델
에너지 기반 모델은 물리 시스템 모델링에서 핵심 아이디어를 차용한 광범위한 생성 모델 분야. 실숫값의 에너지 함수를 0과 1 사이로 정규화하는 함수인 볼츠만 분포로 어떤 이벤트의 확률을 표현할 수 있다는 것. 7.2 에너지 기반 모델(Energy Based Model)에너지 기반 모델은 볼츠만 분포를 사용해 실제 데이터 생성 분포를 모델링. => 0과 1 사이로 정규화.E(x)는 샘플 x의 에너지 함수(혹은 점수).신경망 E(x)를 훈련시켜 가능성 높은 샘플은 낮은 점수(0), 가능성 낮은 샘플은 높은 점수 출력(1).(에너지를 다 써야 좋은 샘플이다!)이러한 방식의 두가지 문제점.점수가 낮은 샘플(그럴듯한 샘플)은 어떻게 생성할까?p(x)가 유효한 확률분포여야 하는데 분모의 적분이 어려움. => 에너지..
-
Attention Is All You Need(2 Aug 2023)
* 원문 논문 아카이브https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org0. Abstract주요 시퀀스 변환 모델은 복잡한 순환 신경망이나 합성곱 신경망을 기반에 두고 인코더와 디코더를 ..
-
CHAPTER 6. 노멀라이징 플로 모델
노멀라이징 플로 모델은 자기회귀 모델처럼 다루기 쉽고 명시적인 데이터 생성 분포 p(x)를 모델링 할 수 있다. 또한 VAE처럼 데이터를 간단한 분포에 매핑한다. 다만, 매핑 함수는 반전 가능하게 제약을 한다.6.2 노멀라이징 플로 모델VAE : 인코더를 학습해 샘플링이 가능한 단순한 분포로 매핑. -> 디코더를 학습해 단순한 분포에서 복잡한 분포로 매핑.=> 인코도와 디코더는 완전히 다른 신경망.노멀라이징 플로 모델 : 디코딩 함수는 인코딩 함수의 역함수여서 빠르고 다르기 쉬움.=>신경망은 기본적으로 반전 가능한 함수 아님!* 역함수 : y = x에 대칭이며 본함수의 x, y의 자리를 바꾸면 됨.6.2.1 변수 변환가역 함수(invertible function) : 모든 z를 이에 해당하는 x로 다시 ..
-
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)
* 원문 논문 아카이브https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlaarxiv.org 0. Abst..
-
CHAPTER 5. 자기회귀 모델
5.2 LSTM 네트워크 소개RNN이란?순차 데이터를 처리하는 순환 층(셀).특정 타임 스텝에서 셀의 출력은 다음 타임 스텝 입력의 일부분.매우 간단하며 tanh 함수 하나로 구성(-1 ~ 1 스케일).그레디언트 소실 일어나 긴 시퀀스에는 부적합.=> LSTM이 문제 해결.5.2.2 텍스트 데이터 다루기이미지와 텍스트 데이터의 차이점.텍스트는 개별적인 데이터 조각이지만, 이미지는 픽셀의 연속적인 색상위의 한 점. 개별 픽셀의 그레디언트를 계산하면 역전파가 쉽지만, 텍스트는 어려움.텍스트는 시간차원이 있고 공간차원이 없지만 이미지는 반대. 단어 사이에는 의존성이 있지만 이미지는 모든 픽셀 동시 처리 가능.텍스트는 개별 단위 변화에 민감하나 이미지는 아님. 픽셀 하나가 달라져도 이미지는 큰 변화가 없지만 문..
-
CHAPTER 4. 생성적 적대 신경망
생성적 적대 신경망(Generative Adversarial Network)의 발견은 생성 모델링의 역사에서 중요한 전환점.4.1 소개GAN은 생성자와 판별자라는 두 적대자 간의 싸움.생성자 : 랜덤한 잡음을 원본 데이터 셋에서 생성한 것처럼 보이는 샘플로 변환.판별자 : 샘플이 원본 데이터 셋에서 나왔는지, 생성자의 위조품인지 예측.=> 둘을 번갈아가며 훈련.4.2 심층 합성곱 GAN(DCGAN)생성자의 마지막 층에서는 시그모이드보다 tanh를 사용.=> 더 강한 그레디언트를 제공.* 시그모이드 : (0, 1) 사이의 값을 출력.* 하이퍼볼릭탄젠트 : (-1, 1) 사이의 값을 출력. 4.2.2 판별자판별자의 목표는 이미지가 진짜인지 가짜인지 예측.=> 지도 학습의 분류 문제.* 마지막 합성곱 층에서 ..
-
CHAPTER 3. 변이형 오토인코더
변이형 오토인코더는 현재 생성 모델링 분야의가장 기본적인 딥러닝 구조.3.2 오토인코더인코딩 : 네트워크 이미지 같은 고차원 입력 데이터를 저차원 임베딩 벡터로 압축.디코딩 : 네트워크 임베딩 벡터를 원본 도메인으로 압축 해제.(원본 임베딩이 없는 위치에서도 재구성 가능)오토인코더 : 인코딩, 디코딩 작업을 수행하도록 훈련된 신경망.3.2.3 인코더입력 이미지를 잠재 공간 안의 임베딩 벡터에 매핑.스트라이드 2를 사용해 각 층에서 출력 크기를 절반 줄이고 채널을 늘려 점진적 고수준 특성 학습.=> 표준 합성곱 층3.2.4 디코더전치 합성곱 층(transposed convolutional layer)디코더의 가장 큰 특징.표준 합성곱 층과 원리는 동일하지만 입력 텐서의 높이와 너비를 두배로 늘림.Strid..
-
CHAPTER 2. 딥러닝
2.1 딥러닝용 데이터정형 데이터 : 많은 머신 러닝 알고리즘이 입력 데이터로 활용.비정형 데이터 : 이미지, 오디오, 텍스트와 같이 태생적으로 특성의 열로 구성할 수 없는 데이터.=> 데이터의 구성 요소가 고차원 공간에서 의존성을 띄고 픽셀, 문자는 독자적 정보. -> 간단한 분류 모델말고 딥러닝이 필수.* 통계학에서의 출력은 '응답 변수', '종속 변수', 머신러닝 분야에서는 '타깃'.2.2 심층 신경망딥러닝 = 심층 신경망2.2.1 신경망이란?심층 신경만은 층을 쌓고, 층은 유닛을 가지며, 이전 층의 유닛과 가중치로 연결.=> 층의 모든 유닛이 이전 층의 모든 유닛과 연결되는 완전연결층(Fully connected layer) 혹은 밀집층(Dense).각 유닛은 입력의 가중치 합에 비선형 변환을 적..
-
CHAPTER 1. 생성 모델링
1.1 생성 모델링이란?생성 모델링 : 주어진 데이터셋과 유사한 새로운 데이터를 생성.이미지 생성 문제에서 특성은 개별 픽셀 값.결정적 -> 확률적=> 다양한 출력 결과를 샘플링1.1.1 생성 모델링과 판별 모델링생성 모델링과 반대 개념인 판별 모델링.차이점 1 : 판별 모델링은 레이블이 있지만 생성 모델링은 없음.판별 모델링 : 샘플 x가 주어졌을 때 레이블 y의 확률을 모델링.생성 모델링 : 샘플 x를 관측할 확률을 모델링.1.1.3 생성 모델링과 AI생성 모델은 아주 복잡한 인공지능 문제를 푸는 열쇠로 추정특정 레이블을 넘어 데이터 분포를 완전히 이해하는 모델.강화학습의 에이전트는 특정 작업에 최적화 되어 유연성이 떨어지므로 생성 모델이 특정 작업에 독립적인 월드 모델로 훈련.인간을 견줄만한 모델 ..
-
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation(23 DEC 2023)
* 원문 논문 아카이브https://arxiv.org/abs/2312.15185 emotion2vec: Self-Supervised Pre-Training for Speech Emotion RepresentationWe propose emotion2vec, a universal speech emotion representation model. emotion2vec is pre-trained on open-source unlabeled emotion data through self-supervised online distillation, combining utterance-level loss and frame-level loss during pre-training.arxiv.org 1. Introducti..
-
A Light CNN for Deep Face Representation with Noisy Labels(12 Aug 2018)
* 원문 논문 아카이브https://arxiv.org/abs/1511.02683 A Light CNN for Deep Face Representation with Noisy LabelsThe volume of convolutional neural network (CNN) models proposed for face recognition has been continuously growing larger to better fit large amount of training data. When training data are obtained from internet, the labels are likely to be ambiguous andarxiv.org 0. Abstract대량의 훈련 데이터는 모델의 크기..
-
Large Concept Models: Language Modeling in a Sentence Representation Space(15 Dec 2024, Meta)
* 원문 논문 아카이브https://arxiv.org/pdf/2412.08821v2 0. Abstract현재 LLM 기술을 입력을 처리하고 출력할 때 토큰 수준에서 작동.=> 단어 이상의 여러 추상화 수준에서 정보를 분석하고 창의적인 내용을 생성하는 인간과 대조적. => "Concept" 라 부르는 고차원 의미 표현에서 작동하는 아키텍처 Large Concept Model(LCM)을 제안.200개 언어에 대한 인상적인 제로샷 일반화 성능을 보이며 기존 LLM을 능가.* 제로샷 일반화 성능 : 학습하지 않은 클래스를 인식하는 것. 모델이 클래스 간의 관계나 속성을 통해 일반화할 수 있는 능력. 1. Introduction현재 LLM은 더 많은 언어 또는 양식으로 확장하기 위해서는 추가 데이터 주입...
-
Whisper vs Faster-Whisper : 성능 비교
환경테스트 음원 : 10분토론.wav길이 : 10분샘플레이트 : 16,000채널 : 모노GPU : RTX 40905회 실행 시 평균을 결과에 반영 API 모델 시간(초) 점유율(MB) 비고 Whisper Large-v3 165.44 10043 Whisper Large-v3-turbo 20.28 5517 Whisper Turbo 20.39 5517 Faster Whisper Large-v3 47.55 5341 Faste..
-
NeMo speaker embedding model(TitaNet-L) FInetuning 코드
2025.02.03 - [R&D] - NeMo speaker embedding model(TitaNet-L) 학습 코드 NeMo speaker embedding model(TitaNet-L) 학습 코드공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocemeerkat-developer.tistory.com위 학습을 무조건 선행 해보고 진행!공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an..
-
NeMo speaker embedding model(TitaNet-L) 학습 코드
공식문서에는 jupyter notebook 기준으로 나와 있지만 py 환경에 맞게 재구성.각종 명령어들은 subprocess를 사용하여 실행.자세한 데이터 구조는 an4를 직접 다운로드 후 참고.import osimport globimport subprocessimport tarfileimport wget########################################## 1. an4 실험 데이터 다운로드 ############################################ *** 데이터 구조 ***# ./data/an4/wav/an4clstk/화자별 폴더/음성데이터 13개(모두가 똑같은 스크립트를 읽음)data_dir = os.path.join('path_your_d..
-
한국어 LLM 모델 별 요약 성능
테스트 모델모회사모델 이름모델 크기장점단점OpenAIGPT 4o mini비공개- 최고의 언어 능력.- 뛰어난 처리 속도.- 외부 GPU 리소스 사용.- 무조건 과금.- 무조건 외부 GPU 사용(기업 내부 프로젝트에서 사용 불가).- 정보의 불투명성.LG AIEXAONE 3.532B- 나온지 2개월 밖에 안된 최신 모델.- LG에서 개발.- 32B 모델은 4090에서 조차 돌아가지 않는 너무 많은 리소스 사용.- 경량화 모델이 없어서 활용도 제한.LG AIEXAONE 3.57.8BLG AIEXAONE 3.52.4BLLAMABllossom 3.23B- 공개된 모든 한국어 데이터를 학습.- 다양한 크기의 모델을 지원.- 영어 성능도 뛰어남.- 3.2 버전은 3B를 넘는 모델을 지원해주지 않음.LLAMABllo..