Multimodal Prompt Learning with Missing Modalities for Sentiment...
2407.05374v1 (1).pdf
Abstract
멀티모달 모델의 발전은 멀티모달 분석 및 감정 인식 분야긔 상당히 진보된 성과를 이뤄내고 있다. 그러나, 현실 세계에서는, 다양한 결측 모달리티 문제로 인해 모델의 성능 저하를 야기할 수 있다. 본 연구에서는, 이러한 결측 모달리티 문제를 다루기 위해 프롬프트 학습 방법을 활용한 획기적인 멀티모달 트랜스포머 구조를 제안한다. 해당 모델은 총 세 가지 프롬프트에 대해 소개한다 : generative prompts, missing-signal prompts, and missing type prompts. 프롬프트 학습을 통해 학습 가능한 파라미터의 수를 상당히 줄일 수 있음을 확인한다.
Introduction
- 인간은 세상을 이해할 때 시각, 청각, 촉각, 언어 등의 다중 모달리티 정보를 활용하여 인식
- 이에 따라 다중 모달리티를 활용한 연구들이 활발히 진행되고 있음
- 기존 연구 한계점 및 도전 과제
- 두 가지 모달리티를 활용하는 연구에 비해 멀티모달 감성 분석 연구는 세 개 이상의 모달리티 활용
- 대규모의 멀티모달 모델 학습을 위한 많은 계산 자원 필요
- 연구 목표
- 모델 학습의 비용을 절감하기 위해 프롬프트 학습(Prompt Learning) 활용
- High resource 데이터로 모델 사전 학습 후 Low resource 데이터에 지식 전파
- High-resource dataset : 상대적으로 완전한 데이터가 많이 존재
- Low-resource dataset : 결측 데이터가 많이 존재
- 기여
- 감성 분석과 감정 인식을 위한 프롬프트 학습 방법을 활용한 획기적인 프레임워크를 제안하고 이는 학습과 테스트 과정에서 모두 학습 효율성 뿐만 아니라 결측 모달리티를 다루는 능력을 지님
- 제안하는 프롬프트의 수는 모달리티의 개수에 따라 선형적으로 증가하여 계산 복잡도 감소
- 결측 모달리티 문제를 다루기 위한 세 가지 타입의 프롬프트 제안
Proposed Method

Overall Architecture
Problem Definition
-
세 가지 유형의 모달리티 데이터 활용
$$
x = (x^a, x^v, x^t)
$$
- $x^a$ : Features of acoustic
- $x^v$ : Features of visual
- $x^t$ : Features of textual
-
결측 모달리티 표현
$$
x= (x^{am}, x^{vm}, x^{tm})
$$
- $x^{am}$ : Acoustic modality is missing
- $x^{vm}$ : Visual modality is missing
- $x^{tm}$ : Textual modality is missing
-
백본 네트워크 : ****MulT (Multimodal Transformer for Unaligned Multimodal Language Sequences, ACL 2019)
- Unaligned 멀티 모달리티 데이터의 문제를 Crossmodal Transformer로 해결
-
세 가지 유형의 프롬프트 제안
- Generative prompt : 이용 가능한 모달리티 정보를 활용하여 결측 모달리티의 생성 학습
- Missing-signal prompt : 결측된 모달리티인지 생성된 모달리티인지에 대한 정보 학습
- Missing-type prompt : 다른 모달리티가 되었는지에 대한 통합 정보 학습