Contrastive_Learning_based_Modality_Invariant_Feature_Acquisition.pdf
**Multimodal Emotion Recognition (MER)**은 서로 다른 모달리티 데이터 간 상호보완적인 정보를 활용함으로써 사람이 감정을 표현하는 방법에 대해 이해하는 것을 목표로 한다. 그러나, 현실 세계에서 항상 모든 모달리티 데이터가 존재한다는 것은 보장할 수 없다. 결측 모달리티 문제를 해결하기 위해, 연구자들은 cross-modal missing modality imagination 학습 과정에서 의미있는 joint multimodal representation을 학습하는 것에 집중해왔다. 그러나, cross-modal imagination 메카니즘은 “modality gap” 문제로 인한 에러에 매우 민감하고 그로 인해 imagination 정확도와 최종 recognition 성능에 영향을 미치게된다. 이를 해결하기 위해, 본 논문에서는 missing modality imagination network안에 modality-invariant 컨셉을 추가하는 방법에 대해 소개하고 두 가지 핵심 모듈로 이루어져 있다: 1) Full-modality에서 modality-invariant한 features를 추출하는 contrastive learning-based module 2) Missing-modality 상황에서 결측된 정보를 reconstruction하기 위한 imagined invariant features를 기반으로한 imagination module
본 연구에서는 **Missing Modality Imagination Network with the Contrastive Learning-based Modality-Invariant Feature (CIF-MMIN)**을 제안
구체적인 학습 전략은 다음과 같음