멀티모달 감성 분석(Multimodal Sentiment Analysis, MSA)은 여러 소스 데이터(언어, 비디오, 오디오 등)에서 풍부한 정보를 활용하여 효과적임을 입증했음에도 불구하고, 감성과 관련이 없거나 서로 모순되는 정보가 각 양식 간에 존재하는 경우 등이 성능 향상을 방해하고 있는 요소로 작용하고 있다. 이러한 문제를 해결하기 위해, Adaptive Language-guided Multimodal Transformer (ALMT) 모델을 제안한다. ALMT는 다양한 scale의 language features의 지도를 받아 시각 및 오디오 features로부터 irrelevance/conflict 억제 표현을 학습하는 Adaptive Hyper-modality Learning (AHL) 모듈을 통합한다.
연구 배경
기존 연구
⇒ 하지만, 이전 연구 중 각 모달리티 데이터가 최종 결과에 어느 정도의 영향을 미치는지 확인하는 ablation study를 통해 거의 대부분이 text 기반의 데이터가 차지하고 있음을 확인했다. 하지만 저자들은 text외의 데이터들은 감성 분석을 방해하는 noisy한 요소들이 많이 있었기 때문이라고 주장한다.
제안 방법