MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations


Abstract

대화속 감정 인식(Emotion Recognition in Conversations)은 대화 중에 화자로부터 표현된 발화의 정확한 감정 분류를 추구하기 위한 자연어처리 커뮤니티에서 인기있는 task이다. 대부분의 기존 연구들은 텍스트 모달리티를 기반으로 하여 화자와 맥락적인 정보를 모델링하는데 중점을 둔 반면, 서로 다른 모달리티 간의 복잡한 상관 관계와 매핑 관계를 충분히 활용하지 못하였다. 더 나아가서, 기존의SOTA 성능을 보인 ERC 모델들은 소수의 감성 카테고리 및 의미적으로 유사한 감성을 구별하는데 어려움을 겪고 있다. 이러한 도전 과제를 다루기 위해, 본 연구에서는 “MultiEMO” 라는 어텐션 기법 기반의 상관 관련(Correlation-aware) 멀티 모달 융합 프레임워크를 제안한다. 또한, 의미론적으로 유사하여 구분하기 쉽지 않은 감정을 정확히 분류하기 위한 Sample-Weighted Focal Contrastive (SWFC) 손실 함수를 제안한다.

Introduction

Methodology

Problem Definition

$$ u_i =\{{u^t_i,u^a_i,u^v_i}\}, i \in\{1,...,n\} $$

Model Overview

Untitled

Unimodal Feature Extraction and Context Modeling