기존의 방법들

Explicit Policy(명시적 정책): 미리 정의된 행동 표현을 사용하여 관찰을 행동으로 직접 매핑하는 방식

Implicit Policy(암시적 정책): 행동을 직접 예측하는 대신, 행동과 관찰에 조건화된 에너지 함수를 모델링하고, 이 에너지 함수를 최소화하는 방식으로 행동을 도출

Propose Model Diffusion Policy : 직접적인 행동을 예측하는 대신, 시각적 관찰에 조건화된 action-score graient를 inference하고, 이를 Denoising을 하며 행동을 점진적으로 세밀하게 조정

Advantage of Propose Model

  1. Expressing multimodal action distributions : Diffusion Policy는 여러 경로를 통해 동일한 목표를 달성할 수 있는 경우에 복잡한 행동 분포를 표현할 수 있음.

  2. High-dimensional output space : Diffusion Policy는 미래의 여러 단계에 걸친 시퀀스를 예측하므로 시간적 일관성(다음 행동과 조화를 이룸)을 유지하는 데 유리해 로봇이 연속적인 움직임을 자연스럽게 수행함

  3. Stable training : Diffusion Policy는 다른 방법들이 정상화 상수 Z(normalization constant)를 추정하는 과정에서 발생하는 불안정성을 피하고, **에너지 함수의 기울기(**score function)를 학습함으로써 안정적인 학습을 달성

    → Diffusion Policy와 DDPM은 score function를 사용해서 Z를 계산할 필요가 없기 때문
    

Method

Diffusion Policy는 DDPM을 기반으로 함.

DDPM Loss function

$$ L = MSE(ε^ k , ε_θ (x ^0 +ε^ k , k)) $$

minimizing the loss function also minimizes the variational lower bound of the KL-divergence between the data distributin p(x0) (원본[정답] 데이터 분포) and the distribution of samples drawn from the DDPM q(x0)

$$ x ^{k−1} = α(x_ k −γε_θ (x^ k , k) +N(

0,σ^ 2 I))

$$

q(x0) 즉, DDPM이 예측한 분포는 위와 같은 Denoising Process로 부터 나온다.

we use a DDPM to learn robot visuomotor policies