Summary

Abstract

**멀티모달 감성 분석(Multimodal sentiment analysis, MSA)**과 **대화속 감정 인식(Emotion recognition in conversation)**은 인간의 행동을 이해하는데 중요한 연구 주제이다. 심리학적인 측면으로 보았을 때, **감정(Emotion)**은 짧은 기간 동안의 영향 또는 표현이며, **감성(Sentiment)**는 더 긴 기간 동안 형성되고 유지되는 것으로 간주된다. 그러나, 대부분의 기존 연구들은 감정과 감성 분석을 서로 독립적으로 연구하고 둘 간의 상호보완적인 지식을 활용하지 못한 연구들을 진행해왔다. 본 연구에서는, Multimodal sentiment knowledge-sharing framework (UniMSE)를 제안한다.

Introduction

연구 배경
- 멀티모달 기계 학습과 대화 시스템의 급속한 발전으로 멀티모달 감성 분석(MSA) 및 대화 속 감정 인식(ERC)이 기계가 인간의 행동과 의도를 인지 및 이해하는 것의 핵심이 되었음
- 멀티모달 데이터는 텍스트(말로 된 단어) features와 음성(성조, 리듬, 음높이) 및 시각(얼굴 특성) features를 포함한 비언어적 정보를 제공
- 이러한 다양한 모달리티는 기계가 다양한 관점에서 결정을 내리도록 하여 더욱 정확한 예측을 하도록 도와줌
- **MSA은 감성의 정도 및 극성(sentiment intensity or polarity)**을 예측하는 것이 목표이고, **ERC는 사전에 정의된 감정 카테고리(predefined emotion categories)**를 예측하는 것이 목표
기존 연구
- 기존 연구들은 각각 MSA, ERC task를 독립된 task로 다루어 연구를 진행
⇒ 저자들은 기존 연구들이 감성과 감정간의 유사성과 상호보완성을 고려하지 못한 점을 문제로 간주
제안 방법
- Multimodal sentiment knowledge-sharing framework (UniMSE) 제안
- Unified MSA and ERC (UniMSE)
  - MSE, ERC task를 생성(generative task)로 재정의하여 입력, 출력, 작업(task)를 통합
  - 모달리티 데이터를 추출하고 MSA, ERC labels를 Universal Labels (UL)로 통합
⇒ MSE, ERC task를 통합되도록 문제를 재정의하였는데, 어떤 방식으로 진행했는지에 대해 집중적으로 파악하면서 읽어나가면 좋을 것 같다.

Method

Overall Architecture

Untitled

크게 Task formalization, pre-trained modality fusion, and inter-modality contrastive learning으로 구성
전체적인 동작 과정
- MSA와 ERC task의 label을 universal label (UL) 포맷으로 변환
- Feature extractor를 통해 audio와 video features 추출
  - 추출된 audio, video features를 각각 두 개의 LSTM에 통과시켜 contextual information 계산
- Textual modality의 경우, T5 encoder를 encoder로 contextual information 계산
  - 기존 연구에서 사용한 T5과는 다르게, 멀티모달 fusion layer를 T5 안에 넣음
- 또한, inter-modal contrastive learning 수행
  
  ⇒ 같은 샘플에서 나온 모달리티 데이터간의 거리는 가깝게, 아니면 멀게 위치하게 하는 목적

Task Formalization

$$ I_i = \{I^t_i, I^a_i, I^v_i \}, \\ where \ \ I^m_i \in \{t,a,v\} $$

$I^i_t$ : Text modalities
$I^i_a$ : Audio modalities
$I^i_v$ : Visual modalities

⇒ 주어진 입력 데이터로부터 MSA는 real number $y^r_i \in \R$ 을 예측하는 것이 목표이고 ERC는 사전에 정의된 label을 예측하는 것이 목표이다. 따라서 Task Formalization을 통해서 두 task의 label을 통합시키는 과정이 필요하다.