A Light CNN for Deep Face Representation with Noisy Labels(12 Aug 2018)
2025. 2. 11. 18:07ㆍ친해지기, 논문
* 원문 논문 아카이브
https://arxiv.org/abs/1511.02683
A Light CNN for Deep Face Representation with Noisy Labels
The volume of convolutional neural network (CNN) models proposed for face recognition has been continuously growing larger to better fit large amount of training data. When training data are obtained from internet, the labels are likely to be ambiguous and
arxiv.org
0. Abstract
- 대량의 훈련 데이터는 모델의 크기 증가라는 결과를 초래.
- 또한 대량의 데이터(이미지 등)가 인터넷에서 수집될 때 레이블이 모호하고 부정확할 가능성이 높음.(노이즈)
- 대량의 노이즈 레이블을 사용한 컴펙트한 임베딩 프레임워크인 LightCNN을 제안.
- LightCNN의 세가지 특징
- LightCNN은 각 합성곱 층에 Max-Feature-Map(MFM)이라는 변형된 Maxout Activation을 도입.
- Maxout Activation => Dying ReLU 문제 해결
- 여러 feature map을 사용해 임의의 블록 활성화 함수를 선형적으로 근사.(논문 언급 부분)
- 기존 활성화 함수 대신 입력값 중 가장 큰 값을 사용.
- 활성함수를 구간 선형 함수로 가정하고, 각 뉴런에 최적화된 활성 함수를 학습을 통해 찾아냄.
- Maxout은 학습을 위한 유닛 구조를 갖고 있음.
- MFM
- 경쟁 관계를 통해 블록 활성화 함수를 선형적으로 근사.
- 노이즈가 있는 신호와 유용한 신호 분리.
- 두 개의 피처 맵 간의 피처 선택 역할도 수행.
- Maxout Activation => Dying ReLU 문제 해결
- 네트워크 성능 향상 시키면서 파라미터 수와 계산 비용 줄임.
- 네트워크 예측을 노이즈 레이블과 더 일관되도록 만드는 Semantic Bootstrapping Method(의미적 부트스트래핑)가 사용됨.
- Semantic Bootstrapping Method : 사전 훈련된 네트워크를 통해 훈련 데이터를 자동으로 재레이블.(감독없이.)
- LightCNN은 각 합성곱 층에 Max-Feature-Map(MFM)이라는 변형된 Maxout Activation을 도입.
1. Introduction
- 네 가지 요약
- MFM 연산을 도입해 ReLU와 달리 경쟁 관계를 채택해 더 나의 일반화 성능과 다양한 데이터 분포에 적용.
- AlexNet, VGG, ResNet의 아이디어를 따르는 세 가지 Light CNN 모델을 제안.
- Sementic Bootstrapping Method를 제안해 일관되지 않은 레이블을 효과적으로 감지해, 이를 재레이블하거나 훈련에서 제거.
- 다양한 얼굴 데이터 관련 최고의 결과 도출.
2. Related Work
- CNN based Face Recognition
- 얼굴 검증을 위한 특징 추출기로 CNN을 사용.
- DeepFace와 FaceNet 등 다양한 모델을 사용.
- Noisy Label Problems
- 노이즈 레이블을 해결하기 위한 여러 방법 중 일반적인 세 가지 범주.
- 학습된 분류 모델이 레이블 노이즈의 존재에 강건한 강건 손실.
- 잘못 레이블이 붙은 인스터스를 식별해 훈련 데이터의 품질 개선.
- 학습 중 노이즈 레이블의 분포를 직접 모델링. => 학습 중 노이즈 레이블에 대한 정보를 사용 가능.
- 노이즈 레이블을 해결하기 위한 여러 방법 중 일반적인 세 가지 범주.
3. Architecture
- Max-Feature-Map Operation
- 노이즈 신호는 CNN의 편향된 결과를 학습하게 됨.
- ReLU는 뉴런이 활성화되지 않으면 출력이 0이됨.
- 신경 과학에서 측면억제(Lateral Inhibition)는 이미지와 오디오 내 수평적, 수직적 정보에 대한 대비를 인식하는데 도움을 줌.
- 수평 세포에 흥분성 신경 신호가 방출 되면 관련 세포에 억제 신호를 보냄.
- 위에 영감을 받아 노이즈 신호와 유용한 신호를 분리 할 수 있고 억제는 파라미터와 데이터에 광범위하게 의존하지 않음.
- Maxout과 달리 MFM은 경쟁적 특징 맵을 얻기 위해 소수의 뉴런의 활성화를 억제.
- The Light CNN Framework
- CNN에서 MFM 연산은 지역 특징 선택과 유사. -> 서로 다른 필터에 의해 학습된 각 위치에서 최적의 특징을 선택.
- 역전파 과정에서 이진 그래디언트를 생성해 흥분과 억제를 전달.
- MFM을 사용해 CNN의 컴팩트한 표현을 얻음.
- Semantic Bootstrapping for Noisy Labels
- '자기 훈련' 이라고 불리며 샘플 분포 추정을 위한 간단하고 효과적인 접근 방식 제공.
- 훈련 샘플의 원래 레이블에서 재샘플링하고 추론을 수행해 재레이블된 샘플로 모델링.
감상
- 오디오 안티스푸핑에 관해 공부하던 와중에 발견한 LCNN 논문.
- LCNN은 특징 추출하는데 유용한 아키텍처 인 것 같다.
- 필터로 특징을 추출한다는 점에서 Inception 모듈과 비슷해 보인다.(CNN 계열들은 전부 한끗 차이인것 같다. 누가 더 경제적으로 많이 쌓냐 대결.)
- 신경 과학이 등장하는데 인간이 역시 최고의 딥러닝 모델 아닌가 싶다.
728x90