Abstract

소셜 미디어의 인기에 따라, 멀티모달리티 데이터(e.g. image - text paris)로부터 감성을 검출하는 것은 최근 상당한 관심을 끌어모으고 있다. 기존 연구들은 주로 다양한 특징(Feature)들을 합치는것에 집중했지만, 모달리티 이질성의 도전(challenge of modality heterogeneity)은 무시했다. 구체적으로, 내재적으로 서로 다른 모달리티의 차이는 3가지 문제점을 야기할 수 있다. 1) 특징을 결합할 때 불필요한 시각적 특징 사용 2) 표현 공간에서 특징 이동 유발 3) 서로 다른 모달리티 데이터간의 주석 불일치 야기 이러한 문제들은 멀티모달 컨텐츠 안의 감성을 이해하는데 어려움을 증가시킬 수 있는 요소이다. 본 논문에서, 이러한 문제를 쳬계적으로 완화할 수 있는 “Milti-View Calibration Network (MVCN)” 을 제안한다.

Introduction