[논문 리뷰] Gradient Based Learning Applied to Document Recognition(LeNet-5)
1998년에 발표된 Yann LeCun의 논문 "Gradient Based Learning Applied to Document Recognition"은 신경망과 기계 학습을 사용한 패턴 인식 시스템에 대한 혁신적인 접근을 제시했습니다. 이 논문에서 제안된 LeNet 모델은 손글씨 숫자 인식 문제를 해결하기 위해 최초로 제안된 Convolutional Neural Network(CNN)로, 오늘날 널리 사용되는 딥러닝 기술의 기초가 되었습니다.
전통적 인식 방법의 문제점
전통적인 숫자 인식 시스템은 Feature Extractor와 Classifier로 구성되어 있으며, 이 접근 방식에는 몇 가지 주요 문제가 존재합니다.
- Feature Extractor의 한계:
- 설계자가 직접 설계해야 하며, 설계자의 경험과 지식에 따라 성능이 달라집니다.
- 각 작업에 대한 사전 지식이 필요하며, 새로운 작업마다 새로운 설계가 요구됩니다.
- Classifier의 한계:
- 전통적인 완전 연결 계층(fc-layer)은 2D 이미지 학습 시 너무 많은 파라미터를 포함하여 학습이 비효율적입니다.
- 과도한 파라미터 수는 과적합(overfitting)의 위험을 증가시킵니다.
- 공간적 정보 손실:
- 이미지를 1차원으로 펼치면서 공간적 정보가 손실됩니다.
- 이는 이미지의 패턴을 인식하는 데 중요한 정보를 잃게 만듭니다.
CNN
논문에서 제안된 CNN은 세 가지 주요 기술의 결합을 통해 전통적인 문제들을 해결합니다.
1. Receptive Field:
- Convolutional filter가 입력 이미지를 슬라이딩하며 연산하는 영역을 의미합니다.
- 이미지를 슬라이딩하면서 원본 이미지의 여러 특징을 효과적으로 추출할 수 있습니다.
- 레이어가 깊어질수록 각 뉴런의 receptive field가 더 넓은 영역의 정보를 포함하여 복잡한 특징을 감지할 수 있습니다.
2. Shared Weight:
- Filter의 convolutional 연산 시, 이미지의 영역은 계속 변하지만 filter의 값은 변하지 않습니다.
- Weight를 공유함으로써 학습 파라미터 수가 감소하고 계산량이 줄어들며, 과적합을 방지하여 테스트 오차와 훈련 오차의 차이가 줄어듭니다.
3. Architecture:
- LeNet-5는 32x32 픽셀의 손글씨 숫자 이미지를 입력으로 받습니다.
- Conv1: 5x5 필터 6개를 사용하여 28x28 크기의 feature map을 생성하고, 활성화 함수로 tanh를 사용합니다.
- Sub2: Average Pooling과 활성화 함수를 사용하여 14x14 크기의 feature map을 생성합니다.
- Conv3: 16개의 5x5 필터를 사용하여 10x10 크기의 feature map을 생성합니다.
- Sub4: 평균 풀링과 활성화 함수를 사용하여 5x5 크기의 feature map을 생성합니다.
- Conv5: 120개의 5x5 필터를 사용하여 1x1 크기의 feature map을 생성합니다.
- Fc6: 84개의 노드를 갖는 Fully-connected layer입니다.
- Output layer: Euclidean Radial Basis Function(RBF)을 사용한 10개의 노드로 구성되었습니다.
Loss Function
LeNet은 Maximum Likelihood Estimation(MLE)을 손실 함수로 사용합니다. 이는 P개의 데이터 포인트에 대한 모델의 예측 오차에 대한 평균을 나타냅니다. 하지만 RBF 네트워크를 학습시킬 때 잘못된 학습 방식이나 파라미터 설정으로 인해 모든 RBF 노드의 출력이 0이 되거나, 클래스 구별이 어려운 문제가 발생할 수 있습니다.
이를 해결하기 위해 로그 소프트맥스(log softmax) 함수를 사용하여 클래스 확률을 추정할 수 있습니다. 이러한 접근은 모델의 성능을 더욱 향상시키고, 다양한 입력 데이터에 대한 예측 정확도를 높이는 데 기여합니다.
Conclusion
본 논문에서 LeCun은 CNN의 초기 버전인 LeNet-5를 소개하며 전통적 패턴 인식 방법의 한계를 극복하는 새로운 접근 방식을 제안하였습니다. 손글씨 숫자 인식을 위해 개발된 LeNet-5는 Receptive Field, Shared Weight, Architecture 등의 기술적 기여를 포함합니다.
LeNet-5는 MNIST 데이터셋에서 높은 정확도를 기록하며, 디지털 문서 처리, 우편 번호 인식 등의 실제 응용 분야에서 뛰어난 성능을 보였다고 합니다. 본 논문은 딥러닝과 컴퓨터 비전 분야의 발전의 토대가 되는 중요한 논문이라 생각합니다.