TCAN: Text-oriented Cross Attention Network for Multimodal...
Multimodal Sentiment Analysis (MSA)는 언어(language), 시각(visual) 그리고 오디오(acoustic) 모달리티를 활용함으로써 인간의 감성을 이해하는 것을 연구하는 분야이다. 비록 이전의 MSA 방법론들에 의해 주목할 만한 성능을 보여주었음에도 불구하고, 내재된 다중 모달 이질성의 존재가 도전 과제가 되며, 다양한 모달리티(양식)들의 기여도가 상당히 다르게 나타난다. 기존 연구들은 대부분 표현 학습 기술과 특징 퓨전 전략을 향상시키는 것을 집중하였다. 그러나, 대다수의 연구들은 각 모달리티 데이터의 중요도를 균일하게 두어 모달리티 데이터의 변화하는 중요도에 대해서는 간과하였다. 이러한 연구들은 아마도 중요도가 낮은 모달리티의 중요도를 과도하게 학습할 수 있고 반면 상당히 중요한 모달리티 데이터는 과소적합 시키는 문제가 발생할 수 있다. 이러한 직관을 바탕으로, 본 연구에서는 MSA 문제에서 언어 모달리티의 지배적인 역할을 강조하는 Text-oriented Cross-Attention Network (TCAN)를 소개한다. 구체적으로, 각 멀티 모달 샘플에 대해 세 가지 모달리티의 비정렬된(unanligned)된 시퀀스를 입력으로 사용하여, 초기에는 추출된 단일 모달리티 특징들을 시각-텍스트(visual-text) 쌍과 음향-텍스트(acoustic-text) 쌍으로 할당한다. 그 후, 텍스트 모달리티에 대해 셀프 어텐션(self-attention)을 적용하고, 텍스트 기반 쿼리를 사용하여 시각 및 음향 모달리티에 교차 어텐션(cross-attention)을 적용한다. 또한, 잡음 신호(noise signals)와 불필요한 특징(redundant features)의 영향을 줄이기 위한 게이트 제어 메커니즘을 통합한다. 추가적으로, 다양한모달리티에서 homogeneous한 감정 경향을 더 깊이 이해하기 위해 단일 모달 결합 학습을 도입하고 이를 역전파를 통해 구현한다. 실험 결과를 통해 MSA 벤치마크 데이터셋인 CMU-MOS와 CMU-MOSEI 두 개의 데이터셋에서 제안하는 TCAN 네트워크의 성능이 SOTA 성능을 기록함을 확인한다.
멀티모달 데이터 증가의 증가로 인한 MSA 연구 증가 추세
기존 멀티모달 연구의 문제점
제안 방법
기여 요약