실제 응용 분야에서 신뢰도있게 활용할 수 있는 견고한(Robustness) 멀티모달 모델을 설계하는 것은 매우 중요하다. 그럼에도 불구하고, 멀티모달 감성 분석(Multimodal Sentiment Analysis, MSA) 모델의 견고함을 향상시키는 것에는 많은 관심을 두지 않고 있다. 본 연구에서는, 간단한 체크를 통해 학습된 멀티모달 모달이 하나의 단일모달리티에 매우 민감한 것을 확인하고 이것이 모델의 견고함을 저해시키는 요소인 것을 파악한다.
연구 배경
연구 목적
⇒ Figure 1은 현재 MSA 모델들이 text 데이터에 많이 의존하고 있다는 것을 보여주는 예시
기존의 제안 된 모델들을 활용한 여러 실험을 통해 모델의 견고함 등을 평가한다. 모델은 RNN 기반의 모델부터 Transformer 기반의 모델까지 SOTA 모델들을 활용한다.
Models : MISA, BBFN, Self-MM, MMIM, MuIT
Datasets : CMU-MOSI, CMU-MOSEI
⇒ 두 데이터셋 모두 벤치마크 데이터셋으로 이용가능하며, 짧은 대화의 3가지(텍스트, 오디오, 시각) 모달리티 데이터를 포함하고 있다.
Missing Modalities, Noisy Modalities로 두 가지 방법론을 사용하여 확인한다.
⇒ 현실적인 시나리오에서 시뮬레이팅해보기 위해, 테스트 데이터의 30% 정도에서 확인하였다.
모달리티 표현에 개입하여 모달리티 에러에 대해 시뮬레이팅 하는 것을 목표로 한다.
언어 모달리티 데이터
시퀀스 토큰 $U_l \in R^{T_l}$ 을 저차원인 $U_l \in R^{T_l \times d_l}$ 로 맵핑
BERT와 같은 모델을 인코더로하여 hidden representation 추출
$$ u_l =enc_{\theta_l}(U_l) \in \R^d $$
⇒ 이렇게 구해진 hidden representation에 개입하여 diagnostics를 적용한다.