Multimodal Transformer for Unaligned Multimodal Language Sequences
인간의 언어는 종종 자연어(Natural language), 얼굴 제스처(Facial gestures), 음향적 행동(acoustic behavior)로 이해하는 멀티모달 데이터이다. 그러나, 멀티모달 인간 언어로 취득된 시계열과 같은 데이터를 모델링할 때 두 가지 챌린지가 존재한다. 1) 서로 다른 모달리티로부터 취득된 시퀀스 데이터는 다양한 sampling rate으로 취득되었기 때문에 non-alignment한 특성을 내재하고 있다. 2) 서로 다른 모달리티의 요소 간 long-range dependencies가 존재한다. 본 연구에서는, explicitly하게 aligning된 데이터 없이도 end-to-end 방식으로 이러한 문제를 다룰 수 있는 Multimodal Transformer (MulT) 프레임워크를 제안한다. MulT 모델의 핵심은 서로 다른 타임스텝간의 상호작용을 처리할 수 있는 pairwise crossmodal attention과 하나의 모달리티로부터 다른 모달리티 데이터에 잠재적으로 스트림을 조정할 수 있는 것에 있다. Aligned와 non-aligned 멀티모달 시계열 데이터에 대한 포괄적인 실험을 통해 제안하는 방법론이 다른 SOTA에 비해 큰 격차로 성능을 향상시킬 수 있음을 보여준다. 또한, 경험적인 분석을 통해 correlated crossmodal 신호들이 MulT의 crossmodal attention 메커지늠을 통해 포착될 수 있음을 제시한다.
인간의 언어는 언어적인 단어 뿐만 아니라 vision과 acoustic으로 부터 얻은 nonverbal 행동을 포함
그럼에도 불구하고, 모달리티간 이질성(Heterogeneties)는 종종 인간의 언어를 분석하는데에 어려움을 증가시킴
본 연구에서는 이와 같은 문제를 해결하기 위해, unaligned 멀티모달 스트림으로부터 직접적으로 representations를 학습하기 위해 기존 transformer를 확장시킨 Multimodal Transformer (MulT) 프레임워크를 제안
⇒ 두 문제에 대한 예시를 Figure 1으로 시각화하였다. Unalignment data의 경우 각 단어에 대해서 정해진 time interval의 평균을 내는 반면, multimodal cross attention을 활용하면 모든 시퀀스에 대해서 스트림 레벨의 alignment를 수행할 수 있는 이점이 있다.
설명을 위해 non-aligned된 두 개의 모달리티 데이터 $\alpha, \beta$가 존재한다고 했을 때, 각각의 모달리티 데이터는 다음과 같이 표기할 수 있다:
$$ X_{\alpha}\in \R^{T_{\alpha} \times d_{\alpha}}, X_{\beta}\in \R^{T_{\beta} \times d_{\beta}} $$
⇒ 하나의 언어를 다른 언어로 번역하는 NMT의 디코더에서 영감을 받아, 서로 다른 모달리티의 정보를 혼합하는 좋은 방법은 다른 모달리티간의 latent adaptation을 제공하는 것이라고 주장한다. 예를 들어 $\beta$ to $\alpha$ 와 같다고 생가하면 된다.