Tag-assisted Multimodal Sentiment Analysis under Uncertain Missing...
멀티 모달 감성분석은 모든 모달리티 데이터가 이용 가능하다는 전제하에 연구가 진행되고 있다. 그러나 이러한 가정은 실용적인 측면에서는 적합하지 않고 대부분의 멀티 모달 퓨전 모델들은 모달리티 데이터에 결측값이 포함되어 있을 때 성능 저하가 발생한다. 이러한 문제를 해결하기 위해 몇몇의 연구가 진행되었지만 대부분의 기존 연구에서는 하나의 모달리티 데이터가 결측된 상황만을 고려하여 여러 모달리티 데이터가 결측된 좀 더 실용적인 상황에 대해서는 고려하지 못하였다. 본 연구에서는 불특정 모달리티 데이터가 결측되어있는 문제를 해결하기 위해 Tag-Assisted Transformer Encoder (TATE) 모델을 제안한다.
멀티 모달 퓨전에 집중한 대부분의 연구는 학습 데이터와 테스트 데이터에 모든 모달리티 데이터가 이용가능하다는 전제를 기반으로 하고 있음
그러나, 실제에서는 Fig. 1과 같은 상황에서 각 모달리티 데이터가 결측될 수 있음
이러한 결측 모달리티 문제를 다루기 위해 기존 연구들이 활발히 진행되어져 왔음
그러나 대부분의 기존 연구에서는 오직 하나의 모달리티 데이터가 결측된 상황만을 고려함
본 연구에서는 기존 연구의 한계점을 개선하기 위해 Tag-Assisted Transformer Encode (TATE) 를 제안하고 다음과 같은 두 가지 문제점을 개선
불특정한 모달리티 데이터들이 동시에 결측된 상황에서도 해결할 수 있는 모델 구축
⇒ 모델이 결측 모달리티 데이터를 attention 할 수 있도록 tag encoding module 도입
결측된 모달리티가 존재할 때 강력한 joint representation을 학습할 수 있는 모델 구축
⇒ Intra-modal features를 포착할 수 있는 Transformer를 encoder로 채택
본 연구의 기여는 다음과 같이 정리할 수 있음
이 섹션에서는, 문제의 정의와 수식을 정의한다. 그런 다음, 제안하는 구조의 workflow와 각 module의 디테일한 설명을 기술한다.