단일모달 데이터와 비교하였을 때, 멀티모달 데이터는 분명 감성분석 연구의 성능 향상에 도움이 된다. 기존 연구는 여러가지 멀티모달 데이터의 fusion 방식을 제안하였다. 본 연구에서는 Contrastive Learning and Multi-Layer Fusion (CLMLF) 방법을 제안한다. 구체적으로, 각각 text와 image 입력으로부터 은닉 표현을 인코더로부터 추출하고 multi-layer fusion 모듈을 통해 각 features를 align하고 fusion한다.
연구 배경
기존 연구
⇒ 기존 방법론이 좋은 성능들을 보였지만, 여전히 text와 image 데이터간의 align과 fusion에 어려움을 겪고 있음.
제안 방법
Multi-Layer Fusion (MLF) 제안
두 개의 contrastive learning tasks 제안
⇒ 멀티모달 데이터의 fusion 성능 향상에 도움을 줌