(PaperReview+Test) A Versatile Learning based 3D Temporal Tracker - Scalable, Robust, Online

(PaperReview+Test) A Versatile Learning based 3D Temporal Tracker - Scalable, Robust, Online

642개의 정점을 가진 Geodesic Grid의 각 vertex로부터 깊이 이미지 및 Object Transformation 정보를 얻고, Random Forest Regressor로 학습해 다음 프레임의 Object Transformation을 예측하는 연구입니다. 해당 논문을 리뷰하고 구현하며 얻은 경험을 공유합니다.

- review date: 2018/04/09 (by Meyong-Gyu.LEE @Soongsil Univ.)
- Eng review of 'A versatile learning based 3D temporal tracker - scalable, robust, online'(ICCV 2015)


‘A Versatile Learning based 3D Temporal Tracker - Scalable, Robust, Online’ 논문은 642개의 정점을 가진 Geodesic Grid의 각 vertex에 Depth Camera를 배치하고 촬영하여 사전에 Depth Data와 그에 대응하는 Object Transformation의 pair들을 모은 후 Random Forest로 학습해 Tracking단계에서 Depth Image만으로 Real world의 Object가 가진 Transformation을 Prediction(Regression)하는 논문입니다.

연구실의 다른 선생님과 이 논문을 따라서 구현해보고 있었는데, 우선 전체 642개 중 1개의 뷰포인트에서 얻은 데이터로 학습시킨 결과는 위 영상과 같습니다. 빨간색 Ground Truth 토끼를 파랑색의 Predicted 토끼가 열심히 따라가려고 노력하고 있습니다. 하이퍼파라미터 튜닝도 덜 되었고, 학습 데이터도 많지 않은데다 논문의 Eq.3 구현도 안되어서 결과는 당연히 와장창이지만 loss 그래프를 뽑아 확인해 본 결과 학습의 방향은 얼추 맞게 진행되는걸 알 수 있었습니다.

다른 네트워크를 실험해 보지는 않았지만 Depth Image를 통한 Prediction에는 Random Forest 모델이 가장 좋은 성능을 보여줍니다. 예시로, MS Kinect의 휴먼 스켈레톤 추출 알고리즘도 RF를 사용하고 있죠. 다만 Depth Data는 차원이 굉장히 높기 때문에, 본 논문에서 제안하는 것처럼 20개 정도의 front face 버텍스를 고르고 Displacement를 구해 학습시키는 것과 같이 고차원 데이터를 대신할만한 무언가로 학습시키는 것이 좋습니다. 일종의 Feature Engineering인 셈이죠.