소셜 미디어의 인기에 따라, 멀티모달리티 데이터(e.g. image - text paris)로부터 감성을 검출하는 것은 최근 상당한 관심을 끌어모으고 있다. 기존 연구들은 주로 다양한 특징(Feature)들을 합치는것에 집중했지만, 모달리티 이질성의 도전(challenge of modality heterogeneity)은 무시했다. 구체적으로, 내재적으로 서로 다른 모달리티의 차이는 3가지 문제점을 야기할 수 있다. 1) 특징을 결합할 때 불필요한 시각적 특징 사용 2) 표현 공간에서 특징 이동 유발 3) 서로 다른 모달리티 데이터간의 주석 불일치 야기 이러한 문제들은 멀티모달 컨텐츠 안의 감성을 이해하는데 어려움을 증가시킬 수 있는 요소이다. 본 논문에서, 이러한 문제를 쳬계적으로 완화할 수 있는 “Milti-View Calibration Network (MVCN)” 을 제안한다.
연구 배경
⇒ 본 연구에서는, Social media의 게시물의 감성을 감지하는 것을 목표로 함.
기존 연구
⇒ 그러나, 서로 다른 모달리티 데이터를 같은 시각으로 바라보는 것은 “modality heterogeneity”를 무시하는 것이다.(즉, 모달리티 별로 중요도를 설정해야하는데 동일한 중요도를 가정하고 사용하는 것은 오히러 모델의 성능을 저하시키는 요인이 될 수 있다는 뜻)
예를 들어, Figure 1에 그림을 봤을 때, 이미지 정보는 바운딩 박스 내의 정보만 유의미하고 나머지 정보는 전부 불필요한 정보인 반면, 텍스트의 경우 이미지에 비해 불필요한 features가 적음
⇒ 이렇듯 서로 다른 모달리티의 heterogeneity은 멀티 모달 컨텐츠의 감성을 이해하는 것에 대한 어려움을 초래한다.
제안 방법