본문 바로가기

전체 글

(19)
[논문 리뷰] UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONALGENERATIVE ADVERSARIAL NETWORKS(DCGANs) Simple GAN의 한계기존의 Simple GAN은 구조와 학습이 불안정하고, 결과가 어떻게 도출되는지에 대한 명확한 설명이 부족했습니다. 이러한 문제를 해결하기 위해 제안된 것이 바로 Deep Convolutional GANs (DCGANs)입니다.논문의 주요 특징안정적인 학습: 대부분의 상황에서 안정적인 학습이 가능한 Deep Convolutional GANs을 제안하였습니다.우수한 성능: DCGAN의 판별자가 다른 비지도 이미지 분류 알고리즘과 대등한 성능을 보였습니다.필터 시각화: 학습이 완료된 필터를 시각화하여, 어떤 필터에서 어떤 객체가 생성되는지를 보여줍니다.벡터 산술 연산: DCGAN 이미지에서 벡터의 산술 연산이 가능합니다. Technical detailsSpatial Pooling -..
[논문 리뷰] Generative Adversarial Nets(GANs) 이미지 생성이란?이미지 생성이란 모델이 학습 데이터셋의 확률 분포를 모델링하고, 이를 바탕으로 새로운 이미지를 생성하는 것을 말합니다. 전체 데이터셋은 고차원 공간에 분포하며, 각 이미지는 고차원 공간의 한 점입니다. 생성 모델의 목표는 이 분포를 학습하여, 분포에 따라 새 이미지를 생성하는 것입니다.  Generative Adversarial NetsGANs는 Ian J. Goodfellow 등 연구자들이 2014년에 발표한 논문에서 처음 소개되었습니다. 이는 기존 생성 모델인 VAEs, RBMs 등의 한계를 극복하기 위한 방법으로, 생성자(Generator)와 판별자(Discriminator)라는 두 개의 네트워크를 경쟁적으로 학습시키는 구조입니다. Adversarial Learning생성자 (G):..
[논문 리뷰] Densely Connected Convolutional Networks (DenseNet) 기존 CNN 기반 네트워크기존 CNN 기반 네트워크는 다음과 같은 식으로 구성됩니다:이 식에서 xl은 lll번째 레이어의 출력을, Hl은 l−1번째 레이어와 l번째 레이어 사이의 non-liear transformation 함수를 나타냅니다. 따라서 이 식은 L−1번째 레이어의 출력을 Hl에 매핑하여 l번째 레이어의 출력을 얻는 것을 의미합니다. 기존 CNN이 가지는 문제점은 네트워크가 깊어짐에 따라 Vanishing gradient 문제가 크게 발생하는 것입니다.이를 해결하고자 ResNet, Highway Networks, FractalNet 등 여러 모델이 제안되었습니다. 기존 ResNet 네트워크기존 ResNet은 다음과 같은 식으로 구성됩니다. l번째 layer output을 얻기 위해  L-1..
[논문 리뷰] Deep Residual Learning for Image Recognition(ResNet) 기존의 신경망 구조에서는 네트워크의 깊이를 깊게 할수록 성능이 향상되지 않고 오히려 성능이 저하되는 현상이 발견되었습니다. 이러한 현상은 네트워크가 깊어질수록 최적화가 어려워지는 Degradation Problem 때문입니다. 깊은 네트워크는 복잡한 모델을 학습할 수 있는 잠재력이 있음에도 불구하고, 최적화 과정에서 문제를 겪어 성능이 저하되는 것입니다.이 문제를 해결하기 위해, Kaiming He와 그의 연구팀은 Residual Learning이라는 새로운 학습 방식을 제안하였습니다. Residual Learning은 네트워크가 학습해야 하는 목표를 단순화하여 최적화를 용이하게 만듭니다. 이를 통해 깊은 네트워크에서도 안정적으로 학습이 가능하게 되었습니다.ResNet & Residual Learning..
[논문 리뷰] Going deeper with convolutions(GoogLeNet) 이번 포스팅에서는 2014년 ILSVRC에서 우승한 모델인 GoogLeNet, 또는 Inception에 대해 살펴보겠습니다. 이 모델의 이름은 영화 “인셉션(Inception)”에서 영감을 받았는데, 인셉션이 꿈속의 꿈을 다루는 것처럼 GoogLeNet은 네트워크 내부에 네트워크를 구축하는 개념을 담고 있습니다.Methods for Improving Network Performance가장 간단한 네트워크 성능 향상 방법은 네트워크의 높이와 너비를 증가시키는 것입니다. 하지만 이 접근법에는 몇 가지 문제가 있습니다.파라미터 수의 증가로 인한 과적합 위험: 네트워크의 크기가 커질수록 학습해야 할 파라미터의 수가 기하급수적으로 증가하여 overfitting에 취약해집니다.계산 자원의 급격한 증가: 네트워크의 ..
[논문 리뷰] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION(VGGNet) 논문 링크: https://arxiv.org/pdf/1409.1556.pdf VGG(Visual Geometry Group)Net은 2014년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 준우승을 기록한 모델입니다. VGGNet은 간단한 CNN 기본 아키텍처만을 사용하여 구조가 단순하고 구현이 쉬워, 다양한 분야에서 기본 모델로 널리 사용되고 있습니다. 대표적인 버전으로는 convolution layer가 13개인 VGG16과 16개인 VGG19가 있습니다. ArchitectureVGG16의 구조는 다음과 같습니다:Input Image Size: 224x224x3 (R, G, B)Convolution Layers: 모든 convolution ..
[논문 리뷰] NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE(Attention) 논문 링크: https://arxiv.org/pdf/1409.0473.pdf 2014년에 발표된 논문 "Neural Machine Translation by Jointly Learning to Align and Translate"는 기계 번역 분야에서 어텐션 메커니즘을 처음으로 제안한 논문입니다. 이 논문은 기존의 기계 번역 방법인 인코더-디코더 구조를 개선하기 위해 어텐션 메커니즘을 도입한 것으로 큰 관심을 받았습니다.어텐션 메커니즘은 자연어 처리 분야에서의 기계 학습의 주요 기법 중 하나로 자리잡았으며, 이후 다양한 변형과 응용이 연구되었습니다.BackgroundNeural Machine Translation기존의 통계적 기계 번역과는 달리 신경망 기계 번역은 단일 대형 신경망을 구축하고 훈련시키는 ..
[논문 리뷰] Learning to See in the Dark(SID) 논문 링크: https://arxiv.org/pdf/1805.01934.pdfSee-in-the-Dark초저조도 상태의 이미지 촬영은 광자 수가 적고 신호 대 잡음 비율(SNR)이 낮아 어렵습니다. 초저조도 상태에서 short-exposure 이미지는 노이즈, long-exposure 이미지는 흐릿함의 문제가 발생합니다.다른 다양한 노이즈, 흐림 제거 및 개선 기법이 제안되었지만 제한적인 성능을 가졌습니다.따라서 본 논문의 저자 Chen Chen et al.는 fully-convolutional network의  end-to-end 학습 기반 초저조도 이미지 처리 파이프라인을 제안합니다. Introduction 위 사진들은 광학 장비에서 빛의 감도를 측정하는 지표인 ISO에 따른 초저조도에서 촬영된 이미..