Abstract

기존 연구들은 감정 인식 (Emotion recognition)의 성능을 향상시키기 위해 멀티모달 데이터의 혼합(Multimodal fusion)의 방식을 주로 연구해왔다. 그러나, 기존 연구들은 기본적으로 모든 모달리티 데이터가 존재하는 상황을 가정하였는데, 실제 상황에서는 여러가지 요인으로 인해 일부 모달리티 데이터가 누락되는 상황이 발생할 수 있고 이 문제는 고정된 멀티모달 혼합 방식을 사용하는 방법론의 성능 저하를 유발시키는 요인이 될 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해 누락된 모달리티 데이터가 무작위로 주어져도 이용가능한 모달리티 데이터를 활용하여 감정 인식을 수행할 수 있는 Missing Modality Imagination Network (MMIN) 모델을 제안한다.

Introduction

Missing modality example

연구 배경
- Automatic multimodal emotion recognition은 인간과 컴퓨터가 보다 자연스럽게 상호작용할 수 있도록 도와주는 중요 과제
- Speech content, Voice tones, Facial expression 등의 인간의 감정이 표현된 모달리티 데이터를 활용하여 인간의 감정을 해석하고 이해하는 컴퓨터를 학습하는 것이 목표
기존 연구
- 기존 연구들은 여러 멀티모달 데이터를 적절하게 fusion하는 방법론에 대해 집중적으로 연구
- 그러나 실제 상황에서는 무작위로 일부 모달리티 데이터가 누락되는 경우가 발생할 수 있음
⇒ 따라서, 기존 full modality 데이터로 학습한 모델들은 일부 모달리티 데이터가 누락되는 경우 제대로 동작하지 않음.
- 위 문제를 해결하기 위해 주로 “Joint multimodal representation” 학습 방법론을 사용하였음
⇒ 그러나, 이러한 방법들은 각 모달리티 데이터가 결측될 수 있는 조건마다 각각 모델이 학습되어있어야 한다는 단점이 있음.
- ex) 만약 모달리티 데이터가 audio(a), visual(v), textual(t)가 존재한다고 하면, 6개의 missing modality conditions {a}, {v}, {v}, {a,v}, {a,t} and {v,t}와 full-modality에서 학습한 모델로 총 7개의 모델이 필요하다.
제안 방법
- 이러한 문제를 해결하기 위해 본 논문에서는 통합된 모델 Missing Modality Imagination Network (MMIN) 제안
- **Cascade Residual Autoencoder (CRA)**를 활용하여 강력한 joint multimodal representation 학습 가능
- Cycle Consistency Learning

Method

Untitled

Raw multimodal features
- 주어진 video segment $S$ 에 대해서, 각 모달리티 데이터는 $x=(x^a, x^v, x^t)$ 로 표현
Target
- Target 집합 $Y=\{y_i\}^{|S|}_{i=1}, y \in \{0,1,...,C\}$, $|S|$ 는 video segment의 개수, $|C|$ 는 emotion category 개수

⇒ 본 논문에서 다루고자하는 task는 모든 video segment $s_i$ 에 대해 emotion category $y_i$ 를 예측하는 것이다. Table 1은 다중 모달리티 데이터가 missing 될 수 있는 경우와 통합된 포맷으로 맵핑한 결과를 보여준다.

MMIN framework

Missing Modality Imagination Network

MMIN은 무작위 모달리티 데이터가 결측될 수 있는 실제 상황에 대한 시나리오를 처리할 수 있는 모델
Figure 2는 MMIN의 전체적인 동작 과정을 보여주는 그림으로 총 3가지 주요 모듈로 구성
1. Modality Encoder Network
  - 각 모달리티 데이터의 embddding 산출
2. Imagination Module
  - Cascade Residual Autoencoder (CRA) 와 Cycle Consistency Learning
  - 이용가능한 모달리티 데이터에 따라 missing modality에 대한 representation을 imagining
3. Emotion Classifier
  - Joint multimodal representation을 기반으로 emotion category 예측