Part 1: Transformer Encoder (WBVIMAPolicy.forward)

목표: 관측 데이터(obs)를 입력받아 문맥 정보가 담긴 transformer_output (Shape: [B, 6, E])을 생성.

  1. 입력 데이터 (obs):
  2. ObsTokenizer (관측 데이터 토큰화):
  3. tokens_in (Transformer 입력 시퀀스 구성):
  4. GPT (Transformer 실행):

Part 2: U-Net Decoder (WBVIMAPolicy.compute_loss)

목표: transformer_output을 조건으로, gt_action의 노이즈를 예측하여 손실을 계산.

  1. _get_action_readout_tokens (조건 정보 추출):