**멀티모달 감성 분석(Multimodal sentiment analysis, MSA)**과 **대화속 감정 인식(Emotion recognition in conversation)**은 인간의 행동을 이해하는데 중요한 연구 주제이다. 심리학적인 측면으로 보았을 때, **감정(Emotion)**은 짧은 기간 동안의 영향 또는 표현이며, **감성(Sentiment)**는 더 긴 기간 동안 형성되고 유지되는 것으로 간주된다. 그러나, 대부분의 기존 연구들은 감정과 감성 분석을 서로 독립적으로 연구하고 둘 간의 상호보완적인 지식을 활용하지 못한 연구들을 진행해왔다. 본 연구에서는, Multimodal sentiment knowledge-sharing framework (UniMSE)를 제안한다.
연구 배경
기존 연구
⇒ 저자들은 기존 연구들이 감성과 감정간의 유사성과 상호보완성을 고려하지 못한 점을 문제로 간주
제안 방법
⇒ MSE, ERC task를 통합되도록 문제를 재정의하였는데, 어떤 방식으로 진행했는지에 대해 집중적으로 파악하면서 읽어나가면 좋을 것 같다.
MSA와 ERC task의 label을 universal label (UL) 포맷으로 변환
Feature extractor를 통해 audio와 video features 추출
Textual modality의 경우, T5 encoder를 encoder로 contextual information 계산
또한, inter-modal contrastive learning 수행
⇒ 같은 샘플에서 나온 모달리티 데이터간의 거리는 가깝게, 아니면 멀게 위치하게 하는 목적
$$ I_i = \{I^t_i, I^a_i, I^v_i \}, \\ where \ \ I^m_i \in \{t,a,v\} $$
⇒ 주어진 입력 데이터로부터 MSA는 real number $y^r_i \in \R$ 을 예측하는 것이 목표이고 ERC는 사전에 정의된 label을 예측하는 것이 목표이다. 따라서 Task Formalization을 통해서 두 task의 label을 통합시키는 과정이 필요하다.