Abstract

**멀티모달 감성 분석(Multimodal sentiment analysis, MSA)**과 **대화속 감정 인식(Emotion recognition in conversation)**은 인간의 행동을 이해하는데 중요한 연구 주제이다. 심리학적인 측면으로 보았을 때, **감정(Emotion)**은 짧은 기간 동안의 영향 또는 표현이며, **감성(Sentiment)**는 더 긴 기간 동안 형성되고 유지되는 것으로 간주된다. 그러나, 대부분의 기존 연구들은 감정과 감성 분석을 서로 독립적으로 연구하고 둘 간의 상호보완적인 지식을 활용하지 못한 연구들을 진행해왔다. 본 연구에서는, Multimodal sentiment knowledge-sharing framework (UniMSE)를 제안한다.

Introduction

Method

Overall Architecture

Untitled

Task Formalization

$$ I_i = \{I^t_i, I^a_i, I^v_i \}, \\ where \ \ I^m_i \in \{t,a,v\} $$

⇒ 주어진 입력 데이터로부터 MSA는 real number $y^r_i \in \R$ 을 예측하는 것이 목표이고 ERC는 사전에 정의된 label을 예측하는 것이 목표이다. 따라서 Task Formalization을 통해서 두 task의 label을 통합시키는 과정이 필요하다.