Multimodal Sentiment Analysis (MSA)는 최근 연구 주제로서 많은 관심을 받고 있다. 대부분의 MSA 연구들은 모든 모달리티 데이터가 완벽히 존재한다는 가정을 기반으로 하고 있다. 그러나, 현실 세계에서 수 많은 불가피한 이유로 인해 불특정한 결측 모달리티 문제를 초래한다. 이러한 문제를 해결하기 위해 본 연구에서는 Unified multimodal Missing modality self-Distillation Framework (UMDF) 를 제안한다. 구체적으로, UMDF의 self-distillation 메카니즘은 단일 네트워크 멀티모달 데이터의 일관된 분포로부터 강건한 inherent 표현을 자동으로 학습하도록 유도한다. 더 나아가서, corse-grained와 fine-grained의 crossmodal attention을 통해 모달리티 간의 상호 보완적인 의미를 깊게 탐구하기 위한 multi-grained crossmodal interaction module을 제시한다. 결국 결측된 모달리티에서 유익한 의미를 강화하면서 그 안의 불필요한 정보를 걸러내어 더욱 정제되고 강건한 멀티모달 표현을 얻기 위한 dynamic feature integration 모듈을 도입한다.
기존 결측 모달리티 문제를 다루기 위한 연구는 크게 2 가지 방법론으로 구분 가능
기존 연구들의 한계점
⇒ 위 문제를 해결하기 위해 UMDF 프레임워크 제안.
Contributions
Input data
$$ S=[X_L,X_A,X_V],\ where \ X_L\in^{T_L\times d_L}, X_A\in^{T_A\times d_A}, X_V\in^{T_V\times d_V} $$
$X^{\prime}_m :$ Incomplete modality