MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations
Abstract
대화속 감정 인식(Emotion Recognition in Conversations)은 대화 중에 화자로부터 표현된 발화의 정확한 감정 분류를 추구하기 위한 자연어처리 커뮤니티에서 인기있는 task이다. 대부분의 기존 연구들은 텍스트 모달리티를 기반으로 하여 화자와 맥락적인 정보를 모델링하는데 중점을 둔 반면, 서로 다른 모달리티 간의 복잡한 상관 관계와 매핑 관계를 충분히 활용하지 못하였다. 더 나아가서, 기존의SOTA 성능을 보인 ERC 모델들은 소수의 감성 카테고리 및 의미적으로 유사한 감성을 구별하는데 어려움을 겪고 있다. 이러한 도전 과제를 다루기 위해, 본 연구에서는 “MultiEMO” 라는 어텐션 기법 기반의 상관 관련(Correlation-aware) 멀티 모달 융합 프레임워크를 제안한다. 또한, 의미론적으로 유사하여 구분하기 쉽지 않은 감정을 정확히 분류하기 위한 Sample-Weighted Focal Contrastive (SWFC) 손실 함수를 제안한다.
Introduction
-
연구 배경
- 대화속 감정 인식(ERC)는 NLP 분야에서 떠오르고 있는 연구 과제로 오디오, 텍스트, 비디오와 같은 정보를 기반으로 대화속의 감정을 분석하는 것을 목표로 함
- 학술적으로나 산업적으로나 비전이 있는 분야이기 때문에 많은 연구가 진행되어지고 있음
-
기존 연구
- ERC 문제를 해결하기 위해 대부분의 기존 연구들은 화자 의존성(Speaker dependencies) 및 대화 맥락(Conversational contexts)를 모델링하는데 중점을 두었음
⇒ 그러나, 아직도 해결되지 않은 몇 가지 challenge들이 남아있다.
-
해결해야 할 과제
(1) 멀티모달 정보의 상호 보완성이 충분히 활용되지 않음

- 텍스트 내에 포함된 정보 외에도, 화자의 억양 및 강조는 감점의 강도를 나타낼 수 있고 또한 상대방의 얼굴 표정 또한 감정을 나타내는 정보로 활용할 수 있음
⇒ 그럼에도 불구하고, 대부분의 기존 연구들은 간단한 fusion 방법을 사용하여 서로 다른 모달리티 간의 상관관계를 명확하게 파악하지 못해 부정확한 fusion이 되는 결과를 초래했다.
(2) 소수 감정 클래스에 대한 성능 부족

- ERC 분야의 벤치마크 데이터셋인 IEMOCAP 및 MELD는 소수 감정 class에 대한 class imbalance 문제에 시달리고 있음
⇒ SOTA 모델들도 이러한 문제를 해결하지 못한 채 실험이 진행되어져 왔다.
(3) 의미적으로 유사한 감정 구별의 어려움
- 불쾌함(disgust)와 화남(anger)과 같이 의미적으로 관련된 다양한 감정을 올바르게 분류하는 것은 여전히 어려운 과제로 남아있음
-
제안 방법 및 기여
- 어텐션 기반의 correlation-aware multimodal fusion framework(named MiltiEMO) 모델 제안
- 양방향 멀티 헤드 어텐션 기반의 MultiAttn이라는 멀티모달리티 fusion 모델 제안
- 소수 감정 클래스의 불균형 문제를 해결하기 위한 SWFC 손실 함수 제안
- MELD와 IEMOCAP 데이터셋에서 SOTA 성능을 보임
Methodology
Problem Definition
- 대화속 감정 인식(ERC)의 목표는 대화 속 감정을 분류하는 것
- 대화(Dialogue) 구성요소
- 발화(Utterances) : $u_1, u_2, ..., u_n$
- 화자(Speakers) : $S_{u_1},S_{u_2},...,S_{u_n}$
- 각 발화는 textual (t), audio (a), 그리고 visual (v)의 모달리티로 구성
$$
u_i =\{{u^t_i,u^a_i,u^v_i}\}, i \in\{1,...,n\}
$$
Model Overview

- **
MultiEMO
**의 주요 구성 요소
- Unimodal Feature Extraction
- Context Modeling
- Multimodal Fusion
- Emotion Calssification
Unimodal Feature Extraction and Context Modeling