기계가 대화 상황에서 멀티모달 데이터의 문맥을 바탕으로 인간의 감정을 이해할 수 있도록 만드는 것은 활발히 진행되어지고 있는 연구 주제이고 이는 **multimodal emotion in conversation (MM-ERC)**라는 태스크로 자리잡았다. MM-ERC는 최근 몇 년 동안 꾸준히 관심을 받고 있는 연구 주제이며, 성능을 향상시키기 위해 수 많은 방법론들이 제안되어져 오고 있다. 대부분의 기존 연구들은 특징 벡터의 활용을 최대화하기 위해 멀티모달 feature disentanglement와 fusion을 수행한다. 그러나, MM-ERC의 특성을 다시 살펴본 후, 특징의 복합성(multimodality)과 대화의 맥락화(conversational contextualization) 모두 disentangle-ment와 fusion 단계에서 동시에 적절히 모델링되어야 된다고 주장한다. 본 연구에서는 이러한 인사이트를 모두 고려함으로써 MM-ERC의 성능을 향상시키고자 한다. Feature disentanglement에서는 특징 벡터를 modality space와 utterance space로 분리하기 위해 contrastive learning technique을 기반으로한 Dual-level Disentanglement Mechanism (DDM)을 제안한다. 반면, Feature fusion stage에서는multimodal과 context integration을 위해 각각 Contribution-aware Fusion Mechanism (CFM)과 Context Refusion Mechanism (CRM)을 제안한다.
최근에는 text 뿐만 아니라 audio, video와 같은 멀티모달 데이터를 활용하는 연구를 주로 수행 (Figure 1 참고)