Abstract

단일모달 데이터와 비교하였을 때, 멀티모달 데이터는 분명 감성분석 연구의 성능 향상에 도움이 된다. 기존 연구는 여러가지 멀티모달 데이터의 fusion 방식을 제안하였다. 본 연구에서는 Contrastive Learning and Multi-Layer Fusion (CLMLF) 방법을 제안한다. 구체적으로, 각각 text와 image 입력으로부터 은닉 표현을 인코더로부터 추출하고 multi-layer fusion 모듈을 통해 각 features를 align하고 fusion한다.

Introduction