Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities

Missing Modality Imagination Network for Emotion Recognition with.pdf


Abstract

기존 연구들은 감정 인식 (Emotion recognition)의 성능을 향상시키기 위해 멀티모달 데이터의 혼합(Multimodal fusion)의 방식을 주로 연구해왔다. 그러나, 기존 연구들은 기본적으로 모든 모달리티 데이터가 존재하는 상황을 가정하였는데, 실제 상황에서는 여러가지 요인으로 인해 일부 모달리티 데이터가 누락되는 상황이 발생할 수 있고 이 문제는 고정된 멀티모달 혼합 방식을 사용하는 방법론의 성능 저하를 유발시키는 요인이 될 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해 누락된 모달리티 데이터가 무작위로 주어져도 이용가능한 모달리티 데이터를 활용하여 감정 인식을 수행할 수 있는 Missing Modality Imagination Network (MMIN) 모델을 제안한다.

Introduction

Missing modality example

Missing modality example

Method

Untitled

⇒ 본 논문에서 다루고자하는 task는 모든 video segment $s_i$ 에 대해 emotion category $y_i$ 를 예측하는 것이다. Table 1은 다중 모달리티 데이터가 missing 될 수 있는 경우와 통합된 포맷으로 맵핑한 결과를 보여준다.

MMIN framework

MMIN framework

Missing Modality Imagination Network