본문 바로가기

전체 글

(19)
[논문 리뷰] Denoising Diffusion Probabilistic Models(Diffusion Model) Diffusion modelDiffusion 모델은 variational inference을 통해 유한한 시간 내에 데이터와 일치하는 샘플을 생성하도록 학습됩니다.이 모델은 샘플링의 반대 방향으로 데이터에 노이즈를 점진적으로 추가하는 과정을 거쳐 작동합니다.저자가 말하는 논문의 주요 기여는 아래와 같습니다.1. Diffusion 모델이 고품질 샘플을 생성할 수 있음을 입증합니다.2. 특정 매개변수가 여러 노이즈 수준에서의 score matching 및 Langevin dymamics와 등가성을 가진다는 것을 발견하였습니다.3. 샘플링 절차가 autoregressive decoding을 일반화한 점진적 디코딩의 일종임을 제시합니다. Diffusion 모델은 데이터의 확률 분포를 학습하는 latent var..
[기술 보고서 리뷰] Video generation models as world simulators (Sora) Sora는 OpenAI에서 2024년 2월 15일에 발표한 비디오 생성 모델로, 기존 비디오 생성 모델들이 고정된 크기의 동영상에 집중한 것과 달리, 다양한 길이, 종횡비, 해상도의 이미지와 비디오를 생성할 수 있으며, 최대 1분의 고화질 동영상도 생성할 수 있습니다. Turning Visual Data into PatchesSora는 LLM의 토큰화 방식을 시각적 데이터 처리에 응용한 새로운 접근법을 사용합니다.비디오 압축: Visual encoder를 이용해 비디오를 latent space로 압축합니다.시공간 패치: 압축한 representation을 spacetime latent patch로 분해합니다.패치 변환: 비디오를 패치로 변환하여 처리합니다. Video Compression Network ..
[논문 리뷰] Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation (StarGANs) 기존 CycleGANs의 한계CycleGAN은 최대 두 개의 고정된 도메인 간의 이미지 변환만 가능하며, 여러 도메인 간의 변환을 위해서는 여러 개의 생성 모델이 필요합니다. 이러한 문제를 해결하기 위해 StarGAN이 제안되었습니다.StarGAN은 단 하나의 생성 모델로 여러 도메인 간의 이미지 변환을 가능하게 합니다. Important termsAttribute: 이미지에 포함된 의미 있는 특징 (예: 머리색, 성별, 나이 등).Attribute Value: Attribute의 특정한 값 (예: 머리색: 검정색, 금색, 갈색 / 성별: 남자, 여자 등).Domain: 같은 attribute value를 공유하는 이미지의 집합 (예: 여자 이미지 - 하나의 도메인, 남자 이미지 - 또 다른 도메인). ..
[논문 리뷰] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(CycleGANs) 기존 pix2pix의 한계Pix2pix는 이미지 변환 작업에서 paired data가 필요합니다. 그러나 실제 세계에서는 paired data {x_i, y_i}​를 구하기 어렵거나 비용이 많이 들 수 있습니다.본 논문에서 제안하는 모델인 CycleGAN은 이러한 한계를 해결하기 위해 unpaired data를 사용합니다. 이를 통해 paired data가 없어도 이미지 변환 작업을 수행할 수 있습니다. Unpaired Data 사용 시 문제점대응되는 데이터 부재: 생성자의 input image와 target image 간의 대응 관계를 학습하기 어려움.Mode Collapse: 생성자가 다양성이 부족한 몇 가지 유형의 이미지만을 생성하는 현상이 심해짐.구조적 일관성 부족: 생성된 이미지가 원본 이미지의..
[논문 리뷰] Image-to-Image Translation with Conditional Adversarial Networks(pix2pix) Image-to-Image Translation이란?Image-to-Image Translation은 입력 이미지를 다른 양상의 출력 이미지로 변환하는 것을 말합니다. 예를 들어, 흑백 사진을 컬러 사진으로 변환하거나, 낮 시간의 사진을 밤 시간의 사진으로 변환하는 작업이 포함됩니다. 이 과정은 결국 픽셀 단위에서 예측을 수행하는 문제입니다.  Objective FunctionPix2pix의 Objective function은 Conditional GAN(cGAN)을 기반으로 합니다. 추가적으로 생성자가 판별자를 잘 속이고 실제 이미지와 더 비슷한 이미지를 생성하도록 L1 손실 함수를 사용합니다. Pix2pix는 생성자가 노이즈 z를 무시하는 방향으로 학습되므로 노이즈 z를 사용하지 않습니다. Gener..
[논문 리뷰] Conditional Image Synthesis with Auxiliary Classifier GANs(AC-GANs) GAN vs CGAN vs AC-GANGANs (Generative Adversarial Networks)GAN은 생성자(Generator)와 판별자(Discriminator)로 구성됩니다. 생성자는 실제와 유사한 데이터를 생성하고, 판별자는 입력된 데이터가 실제 데이터인지 생성자가 만든 데이터인지를 판별합니다. 이 과정에서 생성자와 판별자는 경쟁하며 학습합니다.CGANs (Conditional GANs)CGAN은 기본 GAN에 조건(Condition)을 도입한 모델입니다. 생성자와 판별자 모두에 추가 정보를 제공하여 조건에 맞는 데이터를 생성합니다.AC-GAN (Auxiliary Classifier GAN)AC-GAN은 CGAN의 발전된 모델로, 판별자 내에 보조 분류기(auxiliary classif..
[논문 리뷰] Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets(InfoGANs) Simple GANs의 한계기존의 GAN(Generative Adversarial Network)은 몇 가지 문제점을 가지고 있습니다. 그 중 하나는 노이즈의 분포가 무질서하게 배치되어 있어, 모델이 유의미한 정보를 파악하고 학습하는 데 어려움을 겪는다는 점입니다. 이러한 노이즈의 분포를 질서 있게 배치하기 위해서는 데이터에 레이블 정보를 추가한 지도 학습이 필요합니다.하지만 일반적으로 지도 학습은 비지도 학습보다 비용이 많이 듭니다. 본 논문에서는 정보 이론의 개념인 엔트로피와 상호 정보량을 활용하여 비지도 학습만으로도 노이즈의 분포를 질서 있게 바꾸고자 합니다. Details of Unsupervised LearningAdd Noize c비지도 학습을 위해 본 논문에서는 latent variable인..
[논문 리뷰] Conditional Generative Adversarial Nets(CGANs) Simple GAN의 한계Simple GAN(Generative Adversarial Network)은 몇 가지 중요한 한계를 가지고 있습니다.모드 붕괴: 생성자가 다양성이 떨어지는 출력을 생성합니다.학습 불안정: 학습 과정이 불안정하여 어려움이 많습니다.제어 능력 부족: 생성 데이터의 특성을 제어하기 어렵습니다. CGAN의 보완점Conditional GAN(CGAN)은 Simple GAN의 이러한 한계를 다음과 같이 보완합니다.모드 붕괴의 감소: 조건부 정보를 사용하여 생성자가 더 다양한 데이터를 생성하게 함으로써 모드 붕괴를 감소시킵니다.학습 과정 안정화: 모델에 조건부 정보를 제공하여 학습 과정을 안정화합니다.조건부 정보를 통한 제어: 생성자와 판별자에 조건부 정보를 제공하여 원하는 특성의 데이터를..