A Unified Self-Distillation Framework for Multimodal Sentiment Analysis with Uncertain Missing Modalities

Abstract

Multimodal Sentiment Analysis (MSA)는 최근 연구 주제로서 많은 관심을 받고 있다. 대부분의 MSA 연구들은 모든 모달리티 데이터가 완벽히 존재한다는 가정을 기반으로 하고 있다. 그러나, 현실 세계에서 수 많은 불가피한 이유로 인해 불특정한 결측 모달리티 문제를 초래한다. 이러한 문제를 해결하기 위해 본 연구에서는 Unified multimodal Missing modality self-Distillation Framework (UMDF) 를 제안한다. 구체적으로, UMDF의 self-distillation 메카니즘은 단일 네트워크 멀티모달 데이터의 일관된 분포로부터 강건한 inherent 표현을 자동으로 학습하도록 유도한다. 더 나아가서, corse-grained와 fine-grained의 crossmodal attention을 통해 모달리티 간의 상호 보완적인 의미를 깊게 탐구하기 위한 multi-grained crossmodal interaction module을 제시한다. 결국 결측된 모달리티에서 유익한 의미를 강화하면서 그 안의 불필요한 정보를 걸러내어 더욱 정제되고 강건한 멀티모달 표현을 얻기 위한 dynamic feature integration 모듈을 도입한다.

Introduction

기존 결측 모달리티 문제를 다루기 위한 연구는 크게 2 가지 방법론으로 구분 가능
1. Joint learning methods : 서로 다른 모달리티데이터의 정보를 joint representation으로 통합
2. Generative methods : 이용가능한 모달리티 데이터로부터 결측 모달리티 정보 복원
기존 연구들의 한계점
- 결측 모달리티 내에서 coarse-grained 하고 localized한 상호작용만을 집중하여 강건하지 못한 joint representation 산출 초래
- 멀티모달 representations에서 불필요한 sementics들을 무시하여 performance bottleneck 초래
⇒ 위 문제를 해결하기 위해 UMDF 프레임워크 제안.
Contributions
1. 단일 네트워크 내에서 양방향 지식 전이를 통해 멀티모달 데이터 표현의 일관된 분포로부터 강건한 inherent representation을 자동으로 학습하기 위해 UMDF에서 unified된 self-distillation 메커니즘 설계
  - 양방향 지식 전파 방법을 사용하면 서로 다른 이질적인 모달리티 결측 케이스 간의 feature distributions 과 logits distributions를 유사하게 유지할 수 있도록 supervise할 수 있음
  - Two way pathway 방법을 사용하면 teacher network의 feature에 의존적이지 않음
    - 더 많은 정보를 담은 모달리티는 적은 양의 모달리티 데이터의 결측된 부분에 유의미한 정보에 대한 지식을 전파할 수 있음
    - 반대의 경우 modality-specific한 정보를 강화할 수 있음
2. 결측 모달리티에 대해 점진적으로 coarse- and fine-grained한 crossmodal interaction을 수행할 수 있는 multi-grained crossmodal interaction 모듈 소개

Untitled

Methodology

Untitled

Framework Overview

Input data

$$ S=[X_L,X_A,X_V],\ where \ X_L\in^{T_L\times d_L}, X_A\in^{T_A\times d_A}, X_V\in^{T_V\times d_V} $$
- Sequence length : $T_m$
- Emdedding dimension : $d_m$
- $m \in \{L,A,V\}$
$X^{\prime}_m :$ Incomplete modality