Vanila Diffusion Model(Score matching, DDPM)

DDIM은 기존 DDPM에서 inference할 때 1000번 이상의 반복을 '결정론적(deterministic)'으로 만들어, 전체 1000개의 스텝 중 일부(예: 20~50개)만 건너뛰며(sampling) 이미지를 생성할 수 있게함. 결정론적이므로 multi modality가 떨어진다는 단점 존재

Consistency Model은 노이즈가 추가되는 경로(ODE trajectory) 상의 모든 점(x_t)들은 결국 동일한 원본(x_0)으로 귀결되어야 한다는 성질을 학습. 추론 시에는 순수 노이즈(x_T)에서 시작해 모델을 단 한 번만 통과시키면 고품질의 x_0를 바로 얻을 수 있음. 하지만 학습 과정이 불안전해 collapse가 일어날 수 있으며, distillation을 위해 pre-trained된 모델 필요.

Flow Matching은 Diffusion Model처럼 노이즈가 추가되고 그 역방향(제거되는)을 배우는 대신, 노이즈에서 이미지로 변해가는 '정방향 길' 자체를 직접 학습한다. 즉, 단순한 노이즈 분포(P_noise)를 복잡한 실제 데이터 분포(P_data)로 직접 변환하는 '흐름(Flow)' 또는 '벡터장(Vector Field)' 자체를 학습. Flow Matching 모델 역시 학습 후에는 ODE Solver를 통해 여러 단계로 샘플링할 수도 있고, Consistency Distillation을 적용하여 단일 단계 생성 모델로 만들 수 있음.

Shortcut Models (SMs) 은 모델이 스스로 '뛰어넘을 스텝 크기'를 학습한다. 기존의 확산 모델이나 일관성 모델은 현재의 노이즈 레벨(t)만을 입력으로 받아 다음 상태를 예측했으나,Shortcut Models (SMs)은 현재 노이즈 레벨 (t_now): 현재 이미지가 얼마나 노이즈에 가까운지, 목표 스텝 크기 (t_step): 현재 지점에서 얼마나 먼 미래로 점프하고 싶은지와 같은 두 가지 정보를 함께 입력받는다. 이를 통해 학습된 모델 하나로 사용자가 원할 때 추론 단계의 수(NFE)를 자유자재로 조절할 수 있다는 장점이 있다. 예를 들어, 빠른 프리뷰를 원할 때는 1~2 스텝으로, 고품질 이미지를 원할 때는 10~20 스텝으로 설정하는 등 유연한 활용이 가능하다. 하지만 학습 과정이 불안전하다는 단점이 있음.

Inductive Moment Matching 은 "아주 먼 미래(t)에서 현재(s)로 바로 오는 방법과, 약간 가까운 미래(r)에서 현재(s)로 오는 방법의 결과가 항상 똑같도록 모델을 훈련시킨다”. 이전 모델들이 해결하고자 했던 것처럼 inference시간을 획기적으로 줄일 수 있으며, training stability가 diffusion model처럼 좋다는 장점이 있음.

아래와 같은 방법으로 Training이 진행된다. 약간 GAN느낌으로.

  1. 모델에게 t 시점에서 r 시점(s < r < t)으로 점프해보라고 시킵니다.그럼 r 시점의 **'중간 결과물(가짜 샘플)'이 생성됩니다.

  2. 이제 이 '중간 결과물'을 다시 입력으로 사용해서, r에서 s로 점프해보라고 시킵니다. 동시에, 모델에게 t에서 s로 직접 점프해보라고 시킵니다.

  3. 그리고 두 경로의 최종 결과물이 통계적으로 완전히 똑같아지도록 (MMD를 이용해) 모델을 훈련시킵니다.