다중 모달(이미지 + 깊이 + 언어) 토큰을 한 모델에서 다루는 “멀티센서 이산 확산 + Consistency” 조합

Reference

The Diffusion Duality

이산화(토큰화) 는 로봇 시퀀스를 “언어 모델 방식”으로 다루게 해 주는 열쇠다. 대형 Transformer, 비지도 사전학습, Self-correction, 저-스텝 추론이 한꺼번에 따라온다

ManiCM: Real-time 3D Diffusion Policy via Consistency Model for...

contact rich task를 위해선 3D data(PCD)가 필요한데, 3D DP가 SOTA여씀. 그런데 inference 시간이 오래걸리니 consistent model로 대체 (Preprint)

FlowPolicy: Enabling Fast and Robust 3D Flow-based Policy via...

애는 flow matching 기반으로 함. performance 약간 더 좋고 infernece 속도 약간 느린 정도. (AAAI 2025 oral)