Contribution : unseen objects 들에 대한 pick and place task 수행 data efficient manner에서

기존 방법들의 문제점

  1. 기존 방법들은 객체의 표면에만 키포인트(주요 지점)를 설정하기 때문에, 객체 내부의 중요한 지점을 encode 못했다. 특히, 객체가 부분적으로 가려진 경우에는 키포인트의 위치를 정확하게 예측하기 어려웠다.

solve : continuous function f(x|P) 를 통해 spatial descriptor를 얻어내기에 객체의 두드러지는 geometric features가 동일 카테고리의 다른 모양에도 일관적이다. pointnet 기반의 encoder를 통해 self-supervised learning을 해서 객체의 전체 형태를 포괄할 수 있다.

  1. 키포인트 위치를 추정할 때 작은 오류가 발생하면, 이를 기반으로 한 좌표 변환 과정에서 큰 오류가 누적되어 못된 좌표 프레임이 도출될 수 있다.

solve : SE(3) 변환을 취한 쿼리 포인트로부터 얻어진 feature descriptors과 demo로부터 얻어진 feature descriptors의 distance를 줄임으로써 기존 작업에 비해 오류가 덜 발생한다.

  1. 기존 방법들은 SE(3) 변환(즉, 위치와 방향의 변화)에 대해 equivariant하지않았음

solve : vector neuron을 사용해서 SE(3) 변환에 대해 descriptor fields가 equivariant하게 만들었다.

  1. 기존의 키포인트 기반 접근법은 작업 특성을 반영한 키포인트 레이블링이 필요하여, 데이터를 수집하고 레이블링하는 데 cost가 많이 들었다.

solve : pose descriptor를 사용해서 레이블링이 필요없다.

손잡이와 같은 특정 지점들이 고정된 점 집합으로 사용될 수 있으며, 이 지점들에 대해 point descriptor를 정의해두면 새로운 객체에 대해서 객체가 회전하거나 위치가 바뀌어도 로컬 프레임을 일관되게 찾을 수 있다.

Method A. (neural descriptor field - position)

Descriptor Function f(x∣P) : PCD P중에 특정 포인트 클라우드의 좌표 x가 주어지면 그 위치의 공간적 특징을 나타내는 category-level descriptor를 출력

P는 N개의 3차원 좌표(x,y,z)로 구성되고, descriptor는 3차원 좌표를 가진 point에 대해 그 point를 descript하는 vector를 출력한다.

이러한 함수 f를 학습하기 위해 데이터셋을 수집하고 레이블링 하는 것이 아니라 neural implicit shape representations 을 통해 자가 지도 방식(self-supervised manner)으로 f의 가중치를 학습할 수 있다.