Human multimodal emotion recognition (MER)은 언어, 비디오, 오디오 데이터와 같은 다양한 모달리티 데이터를 활용하여 사람의 감정을 인식하고 이해하는 것을 목표로 한다. 단일 모달리티와 비교하였을 때, 다중 모달리티내의 상호보완적인 정보는 강건한 감정 이해를 용이하게 한다. 그럼에도 불구하고, 실제 상황에서는, 결측된 모달리티 데이터는 감정을 이해하는데 방해를 하고 결과적으로 MER 성능 저하를 초래한다. 본 연구에서는, 결측값을 포함한 다중 모달리티 상황에서의 문제점을 해결하기 위한 방법론인 Incomplete Multimodality-Diffused emotion recognition (IMDer)을 제안한다. 결측 모달리티를 복구하기 위해, IMDer은 input Gaussian noise를 결측 모달리티들의 desired distribution space로 맵핑하는 score-based diffusion model을 활용하고 원래의 분포에 맞게 결측 데이터를 복원한다. 구체적으로, 결측 모달리티와 복원된 모달리티 사이의 의미론적인 모호함을 줄이기 위해, 이용 가능한 모달리티들은 condition으로써 임베딩되고 이를 활용하여 diffusion 기반의 복원 작업을 가이드하고 정제한다. 기존 연구들과는 다르게, IMDer의 diffusion-based modality recovery 메카니즘은 분포 일관성(distribution consistency)와 의미적 명확 함(semantic disambiguation)을 동시에 가능하게 해준다.
멀티모달 데이터의 이질성이라는 내재적인 특성을 이점으로 다양한 모달리티 데이터가 MER task에서 활용되어 짐
기존 연구들은 다양한 방법론들을 제안하며 fusion network framework를 설계함
결측 모달리티 문제를 해결하기 위한 가장 간단한 방법으로는 이용 가능한 모달리티 데이터로부터 결측 데이터를 복원하는 것
각 모달리티별 특유의 분포를 명시적으로 고려하지 못한다는 점이 한계점
예를 들어, 이미지는 수천 개의 픽셀을 통해 행복한 얼굴의 시각적 외형을 제공하는 반면, 텍스트의 경우 감정을 이산적 단어로 이루어진 문장으로 묘사
⇒ 즉, 저자들은 이용 가능한 모달리티로부터 결측 모달리티를 복원할 때, 결측된 모달리티의 본래 분포에 대한 정보를 고려하지 않으면 정확한 값을 예측하기 쉽지 않을 것이라는 것을 기존 연구의 한계점으로 명시한다.
본 연구에서는, 이러한 문제를 해결하기 위해 Fig. 1 (b)에 나와 있는 IMDer의 방법론을 활용하여 결측 모달리티의 정보를 예측하고자 함
⇒ 저자들은 충분한 데이터와 모델 용량이 주어진다면, 학습된 스코어 모델을 활용하여 초기 노이즈 분포에서 시작해 역방향 시간 SDE(즉, 노이즈 제거 과정)를 해결함으로써 분포가 일관된 모달리티를 복원할 수 있다고 주장한다.
$$ Input\ modalities=(x_1, x_2, ..., x_M) $$
⇒ Complete case에서는, 모든 모달리티 데이터가 관측된 상황이고 MER task로 활용할 수 있게 바로 fusion이 가능하다. 그러나, 실제 현실 세계의 시나리오에서는 다양한 이유로 인해 몇몇 모달리티 데이터가 결측될 수 있고 그로 인해 최종 MER 성능을 악화시킬 수 있다. 이러한 문제 때문에 결측 모달리티 데이터를 복원하는 작업이 필수적이라고 저자들은 주장한다.
$$ Indicator: \alpha \in \{0,1\} $$