Summary

Abstract

단일모달 데이터와 비교하였을 때, 멀티모달 데이터는 분명 감성분석 연구의 성능 향상에 도움이 된다. 기존 연구는 여러가지 멀티모달 데이터의 fusion 방식을 제안하였다. 본 연구에서는 Contrastive Learning and Multi-Layer Fusion (CLMLF) 방법을 제안한다. 구체적으로, 각각 text와 image 입력으로부터 은닉 표현을 인코더로부터 추출하고 multi-layer fusion 모듈을 통해 각 features를 align하고 fusion한다.

Introduction

연구 배경
- 소셜 네트워킹 플랫폼의 발달과 함께 사람들의 개인적 의견을 공유하는 장을 얻게 되었음
- 소셜 미디어 데이터에서 어떻게 효과적이고 정확하게 감성을 추출하고 분석하는지에 대한 연구 활발하여 산업적으로나 아카데믹적으로나 널리 퍼짐
기존 연구
- 멀티모달 데이터를 활용한 연구는 텍스트와 이미지 사이의 상관관계가 분석 연구의 성능 향상의 열쇠임
- 기존 연구에서는 멀티모달 데이터간의 fusion을 위한 연구들이 많이 진행되어져 왔음
⇒ 기존 방법론이 좋은 성능들을 보였지만, 여전히 text와 image 데이터간의 align과 fusion에 어려움을 겪고 있음.
제안 방법
- Multi-Layer Fusion (MLF) 제안
  - Transformer-Encoder 기반의 모델
  - 멀티 헤드 어텐션을 통해 text와 image의 상관관계를 좀 더 깊게 학습할 수 있음
- 두 개의 contrastive learning tasks 제안
  - Label Based Contrastive Learning (LBCL)
  - Data Based Contrastive Learning (DBCL)
  ⇒ 멀티모달 데이터의 fusion 성능 향상에 도움을 줌