MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것.
기존 방식
Object Detection Model
영상에서 관심있는 Bounding Box 영역 위치를 추정
Association Model
각 Bounding Box에 대한 Re-identification(Re-ID) 특징을 추출하여 정의된 특정 메트릭에 따라 기존에 존재하는 트랙 중 하나에 연결시킴
이 두 단계끼리 특징을 공유하지 않기 때문에 실시간 성능을 보장할 수 없는 문제가 발생.
학습 과정에서 detection task에 비중을 두어 re-ID를 무시하게 됨.
→ 최근 객체를 탐색하고 Re-ID특징까지 학습하는 One-Shot 방법이 등장함. 그러나 Two-step 방법에 비해 정확도가 매우 떨어짐. 따라서 두 단계를 공평하게 학습하면서 detection && tracking에서 높은 정확도를 냄.
anchor-based는 많은 ID switch를 유발하므로 re-ID feature학습에 적합하지 않음.
TrackRCNN: object proposal(box)를 먼저 예측하고, proposal에서 re-ID feature을 추출함. → re-ID feature이 proposal에 매우 의존적임.
anchor-based 방식은 각 proposal에서 feature을 추출하기 위해 ROI-Pool이나 ROI-Align을 사용함. 각 ROI-Align에서 대부분의 샘플링 위치들이 다른 instance나 background에 속할 수 있음.