Deep Learning/Object Detection

[용어 정리] Salient Object Detection(SOD) 이란 - 중요 물체 검출

족제비다아 2019. 11. 7. 11:35

ICCV 2019 논문들을 살펴보다가 Object Detection이 아닌 'Salient' Object Detection으로 표현하는 논문들이 있길래 무엇이 다른가 찾아보게 되었다. 맥락은 비슷하지만 약간의 차이가 있으니 정리를 해두자 :)

 

(처음에는 Silent로 자꾸 보여서 '조용한 물체를 찾는다고..?'라고 생각이 들게 만듦;;)

 

Salient란 캠브릿지 영영사전에 의하면 'The salient facts about something or qualities of something are the most important things about them'로 '중요한' 특징에 대한 수식어로 받아들여진다.

 

SOD의 의미를 알아보기 위해서 이에 대한 논문을 살펴보자[1].

 

Salient Object Detection은 영상 속에서 가장 salient하고 attention-grabbing한 object를 찾아내어 해당 객체의 전체 범위를 segment하는 것이다. 그렇게 영상 속 각 픽셀들에 salient object가 속할 확률을 intensity 값으로 표현한 saliency map을 알아낼 수 있다.

 

Salient Object Detection[2]

[MSRA 10K Salient Object Dataset] - https://mmcheng.net/msra10k/

 

MSRA10K Salient Object Database

Ground truth examples: (first row) original images with ground truth rectangles from MSRA dataset, (second row) our ground truth, which has more precisely marked important regions at pixel level ac…

mmcheng.net

SOD 모델은 배경으로부터 most salient obejct만을 검출해 내는 것이며 일반적인 Object Detection/Segmentation task와는 다르다. Object Detection은 영상 속에 존재하는 모든 물체들의 위치를 bounding box 형태로 찾아내고 또 각각 종류인지 classification하는 것이며, Object Segmentation은 영상을 같은 종류의 물체끼리 분할하여 픽셀 단위로 표시하는 것이다.

(+ Object Segmentation은 또 Semantic Segmentation과 Instance Segmentation으로 나뉘는데 전자는 예를 들어 5명의 사람이 영상 속에 있어도 그냥 사람으로 한번에 묶는 반면 후자는 각각 개별의 사람으로 묶는 차이가 있다)

 

Object Detection / Object Segmentation[3]

또한 Saliency Model은 크게 두 종류로 나뉘는데 하나는 SOD와 같이 이미지 내에서 중요하다고 생각되는 물체를 검출해내는 방법, 그리고 다른 하나는 사람의 시선이 어디에 가장 오래 머물 지 예측하는 Fixation Prediction(FD) 방법이다.

 

결론은

Salient Object Detection은 영상 속에서 가장 중요한 물체를 찾아내는 것이다

Object Detection과는 엄밀히 다른 문제고 또 Object Segmentation과도 다르다

Reference

[1] Borji, Ali, et al. "Salient object detection: A benchmark." IEEE transactions on image processing 24.12 (2015): 5706-5722.

[2] https://mmcheng.net/msra10k/

[3] https://medium.com/@yanfengliux/the-confusing-metrics-of-ap-and-map-for-object-detection-3113ba0386ef