Multimodal Sentiment Analysis (MSA)는 사용자의 감성을 추론하기 위해 멀티모달 데이터를 활용하는 태스크다. 기존 연구들은 각 모달리티 데이터의 기여도를 동일하게 취급하거나 텍스트 모달리티 데이터를 지배적인 모달리티로 하여 다른 모달리티와의 상호작용을 학습하는 방법론을 제안하였지만, 이런 연구들은 지배적인 모달리티가 다양하게 변화하는 상황은 고려하지 못하는 한계점이 존재한다. 본 연구에서는, MSA를 해결하기 위한 Knowledge-Guided Dynamic Modality Attention Fusion Framework (KuDA) 프레임워크를 제안한다. KuDA는 모델이 동적으로 지배적인 모달리티를 선택하고 각 모달리티의 기여도를 조절하기 위해 감성 지식(sentiment knowledge)를 사용한다. 게다가, 얻어진 멀티모달 표현을 활용하여, correlation evaluation loss를 통해 지배적인 모달리티의 기여도를 더욱 강조할 수 있도록 학습한다.
다중 모달 감정 분석(MSA): 소셜 미디어의 여러 모달리티를 통해 감정을 분석하고 이해
최근 MSA 방법 두 가지:
두 방법의 공통점
모달리티 간 중요성 분포를 고정된 상태로 간주
지배적인 모달리티를 사전에 설정
특정 상황에서는 시각, 텍스트, 오디오 중 하나가 지배적인 모달리티가 될 수 있음(Figure 1 참고)
예: 첫 번째 샘플에서는 시각적 라벨이 전체 감정 라벨과 더 일치하여 지배적
MSA 데이터셋 분석 결과, 이러한 상황은 흔히 발생(세부 통계는 Appendix A 참고).
문제점
제안된 방법: Knowledge-Guided Dynamic Modality Attention Fusion Framework (KuDA)
구체적인 과정
Main Contributions