Abstract

Human multimodal emotion recognition (MER)은 언어, 비디오, 오디오 데이터와 같은 다양한 모달리티 데이터를 활용하여 사람의 감정을 인식하고 이해하는 것을 목표로 한다. 단일 모달리티와 비교하였을 때, 다중 모달리티내의 상호보완적인 정보는 강건한 감정 이해를 용이하게 한다. 그럼에도 불구하고, 실제 상황에서는, 결측된 모달리티 데이터는 감정을 이해하는데 방해를 하고 결과적으로 MER 성능 저하를 초래한다. 본 연구에서는, 결측값을 포함한 다중 모달리티 상황에서의 문제점을 해결하기 위한 방법론인 Incomplete Multimodality-Diffused emotion recognition (IMDer)을 제안한다. 결측 모달리티를 복구하기 위해, IMDer은 input Gaussian noise를 결측 모달리티들의 desired distribution space로 맵핑하는 score-based diffusion model을 활용하고 원래의 분포에 맞게 결측 데이터를 복원한다. 구체적으로, 결측 모달리티와 복원된 모달리티 사이의 의미론적인 모호함을 줄이기 위해, 이용 가능한 모달리티들은 condition으로써 임베딩되고 이를 활용하여 diffusion 기반의 복원 작업을 가이드하고 정제한다. 기존 연구들과는 다르게, IMDer의 diffusion-based modality recovery 메카니즘은 분포 일관성(distribution consistency)와 의미적 명확 함(semantic disambiguation)을 동시에 가능하게 해준다.


Introduction


The Proposed Method

Problem Formulation

$$ Input\ modalities=(x_1, x_2, ..., x_M) $$

⇒ Complete case에서는, 모든 모달리티 데이터가 관측된 상황이고 MER task로 활용할 수 있게 바로 fusion이 가능하다. 그러나, 실제 현실 세계의 시나리오에서는 다양한 이유로 인해 몇몇 모달리티 데이터가 결측될 수 있고 그로 인해 최종 MER 성능을 악화시킬 수 있다. 이러한 문제 때문에 결측 모달리티 데이터를 복원하는 작업이 필수적이라고 저자들은 주장한다.

$$ Indicator: \alpha \in \{0,1\} $$