openaccess.thecvf.com


Abstract

Deep Multimodal learning은 최근 몇 년 동안 굉장한 진전을 이루어내고 있다. 그러나, 현재의 멀티모달 퓨전 방법론들은 동적인 성격을 지닌다. 예를 들어, 서로 다른 멀티모달 데이터의 다양한 계산적인 요구를 고려하지 않고 동일한 비중을 두고 퓨전을 수행한다. 본 연구에서는, 적응적으로 멀티 모달리티 데이터를 퓨전하고 추론 과정에서 데이터 의존적인 forward paths를 생성할 수 있는 새로운 방법론인 dynamic multimodal fusion (DynMM)을 소개한다. 이를 위해, 멀티모달리티 features에 기반하여 상황에 따라modality-level 또는 fusion-level decisions을 제공하기 위한 gating function을 제안하고 계산 비용적으로 효율성을 장려하기 위한 resource-aware loss function을 소개한다. 다양한 멀티모달 task에 대한 실험 결과는 효율성과 제안하는 방법론의 광범위한 적용 능력을 입증한다.


Introduction


Method

이 섹션에서는, 본 연구에서 제안하는 DynMM의 주요 contribution을 제시한다. 첫째로, DynMM이 추론 과정에서 데이터 의존적인 forward path 생성을 가능하게 하는 새로운 decision making schemes를 소개한다. 이 때, 두 가지 레벨로 세분화하고 각각 modality-level (coarse level)과 fusion-level (fine level)의 decision making을 수행한다. 다음으로, DynMM을 위한 새로운 학습 전략을 소개한다: (1) 자원 예산(resource budgets)을 고려한 학습 목표 설정, (2) non-differentiable한 게이팅 네트워크의 최적화 방법.

Modality-level Decision

image.png