Summary

Abstract

결측값을 포함하고 있는 Multimodal sentiment analysis (MSA)는 감성 분석 연구에서 새로운 문제로 제기되고 있고 이를 해결하기 위한 효율적인 모델들이 제안되고 있다. 그러나 기존 연구는 모달리티 간의 강력한 상호작용을 고려하지 않고 간단한 결합 (Concatenation) 방법만을 사용하는 단점이 존재한다. 또한, 텍스트 모달리티의 이점을 충분히 활용하지도 못하였다. 본 연구에서는 결측값을 처리할 수 있는 강력한 모델인 Modality translation-based MAS model (MTMSA)을 제안한다.

Introduction

감성 분석 (Sentiment analysis)이 머신러닝과 자연어처리 분야에서 인기있는 연구 주제로 자리잡음
대부분의 기존 MSA 모델들은 모든 모달리티 데이터가 이용가능하다는 가설을 전제로 함
- 그러나, 실제 application 상황에서는 일부 모달리티 데이터가 결측되는 상황들이 빈번히 존재함
  
  모달리티 데이터가 결측되는 상황 및 이유
- 이러한 Missing modality 문제를 해결하기 위한 연구들도 진행되고 있지만 다음과 같은 한계점이 존재 :
  1. Feature fusion을 위해 간단한 concatenation을 사용하여 모달리티간의 깊은 상호작용을 고려하지 못함
  2. 텍스트 모달리티를 충분히 활용하지 못함. 감성 분석에서는 텍스트 모달리티가 가장 성능이 좋게 나오는 경향성이 있음
  3. 모달리티 결측 문제를 처리할 때, 모든 결측 상황에 대해 동시에 고려하지 못하고 각 상황마다 따로 고려하여 MSA의 복잡도가 상당히 증가함
이러한 문제를 해결하기 위해, 본 연구에서 modality translation network for MSA (MTMSA)를 제안
1. modality translation module을 통해 visual and auditory 모달리티를 text modality로 변환 후 세 모달리티를 fusion하여 missing joint features (MJFs) 산출
2. MJFs를 사전 학습된 트랜스포머 (full-modality로 학습) 인코더 모델을 통과시켜 인코딩. 동시에 트랜스포머 디코더를 통과하여 인코더에게 long-term dependencies를 학습할 수 있도록 가이드 해주는 역할을 함
3. Transformer encoder의 output으로부터 classification 수행

Methodology

Problem definition and notations

3개의 모달리티 데이터 $P=[X_v,X_a,X_t]$, 순서대로 Visual, Auditory, and textual 모달리티를 의미
결측 모달리티는 $X^m_M$ 으로 표기하고 결측은 어떠한 모달리티 $M \in \{v,a,t\}$ 가 될 수 있음
본 논문에서는 설명을 위해 visual 모달리티가 결측된 상황인 $\{X^m_v, X_a, X_t\}$ 를 예시로 함

Model overview

본 연구에서는 uncertain missing modality problem 을 해결하기 위해 translation-based MSA model (MTMSA) 를 제안한다. MTMSA의 구조는 아래의 Fig. 2.와 같고, workflow는 다음과 같다:

Untitled

우선, 결측값을 포함한 멀티모달 데이터 $\{X^m_v, X_a, X_t\}$ 가 사전 학습된 TMTN model의 입력으로 주어지고 TMTN을 통과해 인코딩 수행 (*TMTN : Trained with complete modalities)
Text 모달리티는 transformer encoder를 통해 인코딩, visual과 encoded text는 visual 모달리티를 textual 모달리티로 translation하기 위해 modality translation module의 입력으로 주어짐. 반면, audio와 encoded text들은 또 다른 translation module을 통과하여 audio를 text로 translation 수행