ConFEDE: Contrastive Feature Decomposition for Multimodal Sentiment Analysis
멀티모달 감성 분석(Multimodal Sentiment Analysis)는 비디오 컨텐츠 내의 감성을 분석하는 것을 목표로 한다. 최근 연구에 따르면, 다중 모달 감성 분석은 주요적으로 멀티모달 정보의 효과적인 표현을 학습하는 것에 달려있다는 점을 시사하고 있다. 본 연구에서, 멀티모달 정보의 표현력을 향상시키기 위해서 대조적 표현(Contrastive Representation)학습과 대조적 특징 분해(Contrasitive Feature Decomposition)을 동시에 수행할 수 있는 통합된 학습 구조인 “ConFEDE”을 제안한다.
연구 배경
⇒ 따라서, 비디오의 전반적인 감성에 대한 철저한 결론을 내리기 위해서 텍스트나 언어 자체 외에도 멀티모달 정보의 존재가 중요하다.
기존 연구
⇒ Modality-invariant한 정보(?)를 식별하는 것에 대한 중요성이 나날이 커지고 있다.
문제점
때로는 서로 다른 양식의 감성이 모순되는 경우가 존재
⇒ 텍스트만 보았을 때는 당연히 positive한 감성을 표현하는 것 같지만, 얼굴 표정이나 목소리 톤에 따라 negative인 경우가 존재할 수 있다. 이렇게 모달리티 데이터마다 해석되는 감성이 서로 다른 경우가 존재하는 문제점이 존재한다.
제안 방법
기여
(1) 두 개의 learning tasks를 수행하기 위해 양성 / 음성 데이터 쌍을 샘플링할 수 있게 해주는 customized data sampler를 기반으로 샘플 간 contrasitive 학습과 샘플 내 모달리티 decomposition을 하나의 손실함수로 통합
(2) 각 모달리티를 similarity feature와 dissimilarity feature로 분해하고, 텍스트의 similarity feature를 앵커로 하여 모든 분해된 features간의 contrasitive관계를 구축하는 것을 제안
⇒ 아직 잘 모르겠으니, 나중에 자세히 읽고 이해하자.
(3) 위에서 제안한 멀티모달리티 representation learning을 기반으로, 각 분해된 모달리티 표현에 의존하는 multi-task prediction loss 제안