CVPR 2023 Open Access Repository

Lee_Multimodal_Prompting_With_Missing_Modalities_for_Visual_Recognition_CVPR_2023_paper.pdf


Abstract

이 논문에서는, visual recognition에 대한 멀티 모달 학습에 대한 챌린지에 대해 다룬다. 1) 현실적인 상황에서 모델을 학습하거나 테스팅할 때 발생하는 결측 모달리티(missing-modality) 문제; 2) 연산 자원(computation resources)가 충분하지 않아 대형 트랜스포머 모델을 파인 튜닝할 수 없는 문제가 있다. 이를 해결하기 위해, 본 연구에서는 prompt learning을 활용하는 것을 제안하여 위 두 가지 문제 모두를 완화시킨다. 구체적으로, 제안하는 modality-missing-aware prompts 는 일반적인 결츨 모달리티 상황들을 다룰 수 있는 멀티모달 트랜스포머에 접목시킬 수 있고 전체 모델을 학습시키는 것과 비교하여 1% 이하의 학습 가능한 파라미터만을 요구한다. 더 나아가서 서로 다른 prompt configurations의 효과를 탐구하고 결측 모달리티에 대한 강건함을 분석한다.

Introduction

Proposed Method

Untitled

3.1. Overall Framework

본 연구에서는 몇 가지 결측 모달리티 상황에 대해 가정한다. 예를 들어, 하나의 모달리가 결측되거나 더 많은 모달리티 데이터가 결측되는 상황 등이 존재하고 이는 멀티모달 학습을 할 때 현실적으로 발생할 수 있는 케이스들이다. 참고로 학습 과정에서의 결측 케이스는 테스팅 과정의 케이스와 차이가 있을 수 있다. 게다가 사전학습된 트랜스포머의 크기가 커짐에 따라 연산 비용이 커지기 때문에, 사전학습 모델의 전체를 파인튜닝하지 않는 방법을 구축하느 것이 중요하다.

Problem Definition