MTMSA.pdf


Abstract

결측값을 포함하고 있는 Multimodal sentiment analysis (MSA)는 감성 분석 연구에서 새로운 문제로 제기되고 있고 이를 해결하기 위한 효율적인 모델들이 제안되고 있다. 그러나 기존 연구는 모달리티 간의 강력한 상호작용을 고려하지 않고 간단한 결합 (Concatenation) 방법만을 사용하는 단점이 존재한다. 또한, 텍스트 모달리티의 이점을 충분히 활용하지도 못하였다. 본 연구에서는 결측값을 처리할 수 있는 강력한 모델인 Modality translation-based MAS model (MTMSA)을 제안한다.

Introduction

Methodology

Problem definition and notations

Model overview

본 연구에서는 uncertain missing modality problem 을 해결하기 위해 translation-based MSA model (MTMSA) 를 제안한다. MTMSA의 구조는 아래의 Fig. 2.와 같고, workflow는 다음과 같다:

Untitled

  1. 우선, 결측값을 포함한 멀티모달 데이터 $\{X^m_v, X_a, X_t\}$ 가 사전 학습된 TMTN model의 입력으로 주어지고 TMTN을 통과해 인코딩 수행 (*TMTN : Trained with complete modalities)
  2. Text 모달리티는 transformer encoder를 통해 인코딩, visual과 encoded text는 visual 모달리티를 textual 모달리티로 translation하기 위해 modality translation module의 입력으로 주어짐. 반면, audio와 encoded text들은 또 다른 translation module을 통과하여 audio를 text로 translation 수행