멀티모달 표현 학습(Multimodal representation learning)은 이전 연구들에서 대부분 단일모달리티(Uni-modality) 사전학습 또는 모달리티 간(Cross-modality) 융합 중 하나에 중점을 두었던 challenging task이다. 사실 멀티모달 표현 모델링을 마치 고층 빌딩을 세우는 것으로 간주할 수 있다. 왜냐하면, 안정된 기반을 다지고 주요 구조를 설계하는 것이 모두 중요하기 때문이다. 전자의 경우 모달리티의 representation 학습으로 볼 수 있고 후자의 경우 서로 다른 모달리티의 fusion 과정으로 볼 수 있다. 최근에는 대조적 학습(Contrastive learning)이 representation 학습에서 성공적으로 적용되었고, 모델이 멀티모달 데이터에 포함된 가장 중요한 특징을 추출하는데 도움을 주고 있다. 본 연구에서는 intra 와 inter 모달리티를 동시에 포착할 수 있는 MultiModal Contrastive Learning (MMCL)을 제안한다.