[기술 보고서 리뷰] Video generation models as world simulators (Sora)

Sora는 OpenAI에서 2024년 2월 15일에 발표한 비디오 생성 모델로, 기존 비디오 생성 모델들이 고정된 크기의 동영상에 집중한 것과 달리, 다양한 길이, 종횡비, 해상도의 이미지와 비디오를 생성할 수 있으며, 최대 1분의 고화질 동영상도 생성할 수 있습니다.

Turning Visual Data into Patches

Sora는 LLM의 토큰화 방식을 시각적 데이터 처리에 응용한 새로운 접근법을 사용합니다.

비디오 압축: Visual encoder를 이용해 비디오를 latent space로 압축합니다.
시공간 패치: 압축한 representation을 spacetime latent patch로 분해합니다.
패치 변환: 비디오를 패치로 변환하여 처리합니다.

Video Compression Network

Visual encoder의 다른 말로, 비디오 데이터를 입력으로 받아 시공간상으로 압축된 latent representation을 출력하는 네트워크입니다.

Spacetime Latent Patches

Spacetime Latent Patches는 LLM의 토큰 역할을 하며, Sora는 패치를 통해 다양한 길이, 종횡비, 해상도의 비디오를 학습할 수 있습니다. 이미지를 단일 프레임인 비디오라고 볼 수 있기 때문에 이는 이미지에도 적용 가능합니다.

Scaling Transformers for Video Generation

Sora는 diffusion과 transformer를 결합한 diffusion transformer를 사용합니다. 이 모델은 학습 계산량이 증가함에 따라 품질이 크게 향상되는 것을 발견했습니다. 아래 예시의 순서대로 1배, 4배, 32배의 계산량을 갖습니다.

Variable Durations, Resolutions, Aspect Ratios

Sora는 1920x1080부터 1080x1920 사이의 모든 해상도를 샘플링할 수 있으며, 전체 해상도 생성 이전에 작은 크기의 프로토타입을 생성할 수 있습니다.

Language Understanding

Text-to-video 학습을 위해 캡셔닝된 비디오가 필요하며, DALL-E 3의 re-captioning 기술을 통해 비디오 캡셔닝을 적용하여 생성 비디오의 품질과 텍스트 충실도를 향상시킵니다.

Prompting with Images and Videos

기존 이미지나 비디오에 프롬프트를 추가하여 다양한 기능을 수행할 수 있습니다:

1. Animating DALL-E Images: DALL-E가 생성한 이미지를 애니메이션화.

2. Extending Generated Videos: 비디오의 이전 또는 이후 부분을 확장.

3. Video-to-Video Editing: 입력 비디오를 다른 스타일로 편집.

4. Connecting Videos: 점진적 보간을 통해 다른 주제의 두 비디오를 연결.

또한, Sora는 한 프레임만큼의 시간 범위를 갖는 공간 그리드에 가우시안 노이즈 패치를 배열하여 2048x2048 해상도의 이미지를 생성할 수 있습니다.

Emerging Simulation Capabilities

Sora의 대규모 학습을 통해 얻는 장점은 다음과 같습니다:

1. 3D consistency: 역동적인 카메라 움직임으로 비디오 생성이 가능하며, 카메라 이동 및 회전 시에도 사람과 장면 요소들이 일관적으로 이동합니다.

2. Long-range coherence and object permanence: 긴 동영상 샘플링 시 시간적 일관성을 유지할 수 있습니다.

3. Interacting with the world: 물리법칙에 상응하는 행동을 시뮬레이션할 수 있습니다.

4. Simulating digital worlds: 컴퓨터 게임과 같은 인공적 프로세스를 시뮬레이션할 수 있습니다.

실제 게임

시뮬레이션

Limits

현재까지도 Sorark 해결하지 못한 한계점은 다음과 같습니다:

여러 가지 물리법칙에 상응하는 샘플링이 어려움.
원인에 따른 정확한 결과가 나오지 않는 경우가 있음 (예: 햄버거를 먹은 뒤 잇자국).
시간적 일관성을 지키지 못하는 경우가 있음.
예상하지 못한 객체가 생성되는 경우가 있음.

'논문 리뷰 > Generative Model' 카테고리의 다른 글

[논문 리뷰] Denoising Diffusion Probabilistic Models(Diffusion Model) (0)	2024.08.08
[논문 리뷰] Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation (StarGANs) (0)	2024.07.26
[논문 리뷰] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(CycleGANs) (0)	2024.07.26
[논문 리뷰] Image-to-Image Translation with Conditional Adversarial Networks(pix2pix) (0)	2024.07.26
[논문 리뷰] Conditional Image Synthesis with Auxiliary Classifier GANs(AC-GANs) (0)	2024.07.26

우리집 고양이 9kg

[기술 보고서 리뷰] Video generation models as world simulators (Sora)

Turning Visual Data into Patches

Video Compression Network

Spacetime Latent Patches

Scaling Transformers for Video Generation

Variable Durations, Resolutions, Aspect Ratios

Language Understanding

Prompting with Images and Videos

Emerging Simulation Capabilities

Limits

'논문 리뷰 > Generative Model' 카테고리의 다른 글

티스토리툴바

[기술 보고서 리뷰] Video generation models as world simulators (Sora)

Turning Visual Data into Patches

Video Compression Network

Spacetime Latent Patches

Scaling Transformers for Video Generation

Variable Durations, Resolutions, Aspect Ratios

Language Understanding

Prompting with Images and Videos

Emerging Simulation Capabilities

Limits

'논문 리뷰 > Generative Model' 카테고리의 다른 글

'논문 리뷰/Generative Model' Related Articles

티스토리툴바