CVPR 2023 Open Access Repository
Lee_Multimodal_Prompting_With_Missing_Modalities_for_Visual_Recognition_CVPR_2023_paper.pdf
이 논문에서는, visual recognition에 대한 멀티 모달 학습에 대한 챌린지에 대해 다룬다. 1) 현실적인 상황에서 모델을 학습하거나 테스팅할 때 발생하는 결측 모달리티(missing-modality) 문제; 2) 연산 자원(computation resources)가 충분하지 않아 대형 트랜스포머 모델을 파인 튜닝할 수 없는 문제가 있다. 이를 해결하기 위해, 본 연구에서는 prompt learning을 활용하는 것을 제안하여 위 두 가지 문제 모두를 완화시킨다. 구체적으로, 제안하는 modality-missing-aware prompts 는 일반적인 결츨 모달리티 상황들을 다룰 수 있는 멀티모달 트랜스포머에 접목시킬 수 있고 전체 모델을 학습시키는 것과 비교하여 1% 이하의 학습 가능한 파라미터만을 요구한다. 더 나아가서 서로 다른 prompt configurations의 효과를 탐구하고 결측 모달리티에 대한 강건함을 분석한다.
최근 일부 멀티모달 downstream tasks에서 사전학습된 멀티모달 트랜스포머가 backbone network로 사용되는 것이 추세
비록 다양한 task에서 일반화 능력과 유망한 성능을 보여줌에도 불구하고, 다음과 같은 이유들로 인해 실용적인 시나리오에서는 적용 불가
대부분의 멀티모달 트랜스포머 기반 방법들은 공통적으로 데이터의 완전성(data completeness)에 대한 가정을 깔고 있음
대용량의 데이터셋에서 사전학습된 트랜스포머들은 강력한 일반화 능력 덕분에 주로 백본 네트워크로 채택되고 다양한downstream task를 다루기 위해 파인튜닝되어짐
본 논문에서는, 데이터 샘플에서 발생할 수 있는 다양한 현실적인 결측 모달리티 데이터 상황에 대해 연구를 진행하고 특히, 트랜스포머 전체 모델을 파인튜닝하는 것에 대한 요구를 완화하는것에 집중
기존 연구와 본 논문의 방법론에 대한 차이점을 나타내는 그림
이를 위해 앞서 설명한 문제를 다루기 위해 prompt learning 테크닉을 활용한 프레임워크 제안
⇒ 결과적으로, 학습 가능한 프롬프트는 전체 트랜스포머의 크기의 1% 이하이고 이로인해 전체 모델을 파인튜닝 하는 것에 비해 연산 비용이 절감될 수 있음을 주장한다.
일반적인 결측 모달리티 시나리오를 다루는 멀티 모달 트랜스포머의 프롬프트 디자인을 더 탐구하기 위해, missing-aware 프롬프트를 사전학습된 트랜스포머 모델에 포함시키는 두 가지 디자인에 대해 조사
⇒ 본 연구에서는 프롬프트가 주어지는 위치가 결측 모달리티 문제를 해결하는데 중요한 역할을 하는 것을 확인했다.
여러 프롬프트 설정에 따라 실험을 진행하고 프롬프트 길이와 위치가 중요한 역할을 한다는 것을 발견
본 연구의 기여도를 요약하면 다음과 같음
본 연구에서는 몇 가지 결측 모달리티 상황에 대해 가정한다. 예를 들어, 하나의 모달리가 결측되거나 더 많은 모달리티 데이터가 결측되는 상황 등이 존재하고 이는 멀티모달 학습을 할 때 현실적으로 발생할 수 있는 케이스들이다. 참고로 학습 과정에서의 결측 케이스는 테스팅 과정의 케이스와 차이가 있을 수 있다. 게다가 사전학습된 트랜스포머의 크기가 커짐에 따라 연산 비용이 커지기 때문에, 사전학습 모델의 전체를 파인튜닝하지 않는 방법을 구축하느 것이 중요하다.
본 연구에서는 두 가지 모달리티 데이터 $M=2\ (m1,m2)$ 이 존재한다고 가정(e.g. image and text)
멀티모달 데이터셋 $D=\{D^c,D^{m1},D^{m2}\}$ 는 완전한 데이터셋 $D^c$ (Complete), 결측을 포함한 데이터셋 $D^{m1}, D^{m2}$ 의 집합으로 표현
$$ D^c =\{x^{m1}_i, x^{m2}_i, y_i\} \\ D^{m1} = \{x^{m1}_j, y_j\} \\ D^{m2} = \{x^{m2}_k, y_k\} \\ $$