Multimodal Transformer for Unaligned Multimodal Language Sequences


Abstract

인간의 언어는 종종 자연어(Natural language), 얼굴 제스처(Facial gestures), 음향적 행동(acoustic behavior)로 이해하는 멀티모달 데이터이다. 그러나, 멀티모달 인간 언어로 취득된 시계열과 같은 데이터를 모델링할 때 두 가지 챌린지가 존재한다. 1) 서로 다른 모달리티로부터 취득된 시퀀스 데이터는 다양한 sampling rate으로 취득되었기 때문에 non-alignment한 특성을 내재하고 있다. 2) 서로 다른 모달리티의 요소 간 long-range dependencies가 존재한다. 본 연구에서는, explicitly하게 aligning된 데이터 없이도 end-to-end 방식으로 이러한 문제를 다룰 수 있는 Multimodal Transformer (MulT) 프레임워크를 제안한다. MulT 모델의 핵심은 서로 다른 타임스텝간의 상호작용을 처리할 수 있는 pairwise crossmodal attention과 하나의 모달리티로부터 다른 모달리티 데이터에 잠재적으로 스트림을 조정할 수 있는 것에 있다. Aligned와 non-aligned 멀티모달 시계열 데이터에 대한 포괄적인 실험을 통해 제안하는 방법론이 다른 SOTA에 비해 큰 격차로 성능을 향상시킬 수 있음을 보여준다. 또한, 경험적인 분석을 통해 correlated crossmodal 신호들이 MulT의 crossmodal attention 메커지늠을 통해 포착될 수 있음을 제시한다.


Introduction

image.png


Proposed Method

image.png

Crossmodal Attention

image.png

설명을 위해 non-aligned된 두 개의 모달리티 데이터 $\alpha, \beta$가 존재한다고 했을 때, 각각의 모달리티 데이터는 다음과 같이 표기할 수 있다:

$$ X_{\alpha}\in \R^{T_{\alpha} \times d_{\alpha}}, X_{\beta}\in \R^{T_{\beta} \times d_{\beta}} $$

⇒ 하나의 언어를 다른 언어로 번역하는 NMT의 디코더에서 영감을 받아, 서로 다른 모달리티의 정보를 혼합하는 좋은 방법은 다른 모달리티간의 latent adaptation을 제공하는 것이라고 주장한다. 예를 들어 $\beta$ to $\alpha$ 와 같다고 생가하면 된다.