Multi-modal Emotion Recognition Utilizing Korean-English Vision and Language Information Alignment Pre-trained Model.pdf

Abstract

Introduction
- 인간의 감정은 다양한 방식으로 표현가능
  - e.g. 말투, 표정, 제스쳐…
Contributions
- 새로운 데이터셋 구축
  - 기존의 Vision + Language 데이터셋 융합하여 multi-modal dataset 구축
- 멀티모달리티 처리 모델 “VL-KE-T5” 제안
  - Image, text 정보 동시에 인코딩 및 활용
Conclusion
- 제안하는 multi-modal 모델이 기존 uni-modal 보다 좋은 성능 기록

Introduction

Background of research
- Task
  - 공감 대화(empathetic interactions)를 위한 인공지능 대화 모델 개발
- Idea
  - 감정 인식 성능 상향을 위해 다양한 멀티 모달리티 활용해야 함
⇒ 본 연구에서는 Utterance text & facial expression image를 활용하여 감정인식 수행하고자 함
Main
- 공감 대화에서 사용자의 감정 인식을 수행하기 위해서는 공감 대화에 특화된 데이터셋이 필요
- 그러나, 기존에 공개된 공감 대화 데이터셋들은 uni-modal 데이터만 존재
  - Textual utterance dataset
- 멀티 모달리티 학습을 위해 새로운 데이터셋 구축
  - Textual utterance dataset + Emotion image dataset
    - Textual utterance dataset
    - Emotion image dataset
- 텍스트와 이미지에 대한 정보를 동시에 다루기 위해 bi-encoder 구조의 모델 제안
  - VL-KE-T5(Figure. 1)
- 실험을 통해 제안하는 모델이 uni-modality 모델보다 성능이 좋게 나옴는 것을 입증

Related Work

Previous approaches
- audio-text, audio-video, text-audio-video
Limitation
- 적은 수의 emotion labels, train data
- 각 모달리티 입력 데이터에 대한 hidden representation의 정보 연결 없음
  
  ⇒ 이 부분을 잘 개선한건지는 잘 모르겠음…

Multi-modal Emotion Recognition Model

Untitled

Untitled

Untitled

Untitled

Untitled

Backbone model VL-KE-T5
- KE-T5
  - 한국어 기반 언어 모델
  - Korean & English corpora에 대해 사전학습
- Vit : 컴퓨터 비전 기반 이미지처리 모델
  - CNN 기반의 모델보다 우수한 성능을 보임