Multimodal Sentiment Analysis (MSA)는 언어, 비전, 오디오 등과 같은 이질적인 특성을 지닌 모달리티 데이터를 활용하여 인간의 감성을 이해하는 것을 목표로 한다. 기존 연구들은 서로 다른 모달리티 간의 공유된 정보를 추출하거나 이질적인 모달리티를 직접적으로 혼합하는 것에 집중을 해 왔었는데, 이러한 연구들은 모달리티의 상대적인 중요도를 파악하지 못하고 동일한 중요도로 취급하였기 때문에 불필요성과 충돌 등과 같은 문제를 초래할 가능성이 있다. 이러한 문제를 해결하기 위해 Disentangled-Language-Focused (DLF)라는 멀티모달 표현 학습 프레임워크를 제안한다. DLF는 모달리티 공유 정보와 모달리티 각각의 정보를 각각 분리하기 위한 feature disentanglement 모듈을 포함하고 있다. 더 나아가서, 불필요한 정보의 학습을 줄이고 언어를 타겟팅한 특징 표현을 강화하기 위해서는 disentanglement 과정을 정제하기 위한 네 가지 geometric measures를 소개한다. A Language-Focused Attractor (LFA)는 상호보완적인 모달리티 개별적 정보를 language-guided cross-attention 메커니즘을 활용하여 언어의 표현력을 강화하는데 사용한다. DLF는 또한 전반적인 정확도를 향상시키기 위해 계층적인 예측을 사용한다.