Pointnet 이 필요한 이유 : point cloud 의 irregular한 format 때문에, 이전의 대부분 연구자들은 regular한 3D voxel grid 또는 image들의 집합으로 변환해서 사용함
Point Cloud (PCD) 데이터
- 구조: PCD는 3D 공간에 위치한 개별 점들로 구성. 각 점은 일반적으로 (x,y,z) 좌표로 표현되며, 때로는 색상, 반사율 등 추가 정보도 포함할 수 있습니다.
- 형식: 데이터가 고정된 격자나 배열 없이 각 점의 위치에 따라 불규칙하게 분포되어 있어, 순서나 정렬이 없다.
- 특징: 점의 밀도가 고르지 않을 수 있고, 대상 물체의 표면만을 나타내는 경우가 많다. 이러한 불규칙성 때문에 CNN에 바로 적용하기 어렵고, 이를 처리하기 위해 PointNet 같은 모델이 개발되었다.
Voxel 데이터
- 구조: Voxel은 3차원 공간을 고정된 크기의 격자로 나누고, 각 격자(cell)가 3D 공간의 작은 단위(큐브)를 나타내는 형식.
- 형식: 각 Voxel은 격자 형태의 구조로 배치되어 있으며, 특정 위치에 물체가 존재하는지 여부를 이진 값(0 또는 1)으로 나타내거나, 밀도나 강도를 포함한 값을 가질 수 있다.
- 특징: 규칙적인 격자 구조 덕분에 CNN에서 사용하기 쉬워서, 3D 합성곱 연산을 적용하여 패턴을 학습할 수 있다. 하지만 고해상도 보켈 데이터를 사용하면 메모리와 연산 비용이 많이 든다는 단점이 있다.
Problem Statement
- point cloud : 3D point들의 집합{Pi| i=1,...,n}으로 표현됨, 각 point Pi는 (x,y,z)좌표 & feature channel(color, normal)의 벡터=> 여기서는 (x,y,z)만 사용
-
object classification task의 input point cloud로는 shape으로부터 sampling되거나, scene point cloud에서 사전에 segmented 된 것을 사용 → output은 k개의 class에 대해 k개의 score를 가짐
-
sementic segmentation task의 input은 part region segmentation을 위한 single object이거나, object region segmentation을 위한 3D scene의 sub-volume임
→ output은 n개의 point와 m개의 semantic sub category에 대해 n × m개의 score들을 가짐