Abstract

멀티모달 감성 분석(Multimodal Sentiment Analysis, MSA)은 여러 소스 데이터(언어, 비디오, 오디오 등)에서 풍부한 정보를 활용하여 효과적임을 입증했음에도 불구하고, 감성과 관련이 없거나 서로 모순되는 정보가 각 양식 간에 존재하는 경우 등이 성능 향상을 방해하고 있는 요소로 작용하고 있다. 이러한 문제를 해결하기 위해, Adaptive Language-guided Multimodal Transformer (ALMT) 모델을 제안한다. ALMT는 다양한 scale의 language features의 지도를 받아 시각 및 오디오 features로부터 irrelevance/conflict 억제 표현을 학습하는 Adaptive Hyper-modality Learning (AHL) 모듈을 통합한다.