Deep Multimodal learning은 최근 몇 년 동안 굉장한 진전을 이루어내고 있다. 그러나, 현재의 멀티모달 퓨전 방법론들은 동적인 성격을 지닌다. 예를 들어, 서로 다른 멀티모달 데이터의 다양한 계산적인 요구를 고려하지 않고 동일한 비중을 두고 퓨전을 수행한다. 본 연구에서는, 적응적으로 멀티 모달리티 데이터를 퓨전하고 추론 과정에서 데이터 의존적인 forward paths를 생성할 수 있는 새로운 방법론인 dynamic multimodal fusion (DynMM)을 소개한다. 이를 위해, 멀티모달리티 features에 기반하여 상황에 따라modality-level 또는 fusion-level decisions을 제공하기 위한 gating function을 제안하고 계산 비용적으로 효율성을 장려하기 위한 resource-aware loss function을 소개한다. 다양한 멀티모달 task에 대한 실험 결과는 효율성과 제안하는 방법론의 광범위한 적용 능력을 입증한다.
인간은 시각, 청각, 촉각, 미각 등 다양한 감각을 통해 멀티모달 방식으로 세상을 인식함
이러한 진보에도 불구하고, 여러 모달리티로 특징지어진 정보를 최적으로 조합하는 방법은 멀티모달 학습에서 여전히 근본적인 과제로 남아 있음
그러나 manually-designed와 NAS-based 방법로들은 모든 instances를 하나의 fusion architecture로 처리하고 다양한 멀티모달 데이터의 adaptability가 부족한 실정
⇒ 저자들은 Input data의 상황에 따라서 dynamic하게 fusion 하는 것이 아니라 항상 static하게 모든 모달리티 데이터를 uniform하게 fusion하는 방법으로 인해 계산 비용적 또는 표현 능력 측면으로 손해를 볼 수 있다고 주장한다.
이러한 관찰을 직관으로, 본 연구에서는 다양한 모달리티 입력 데이터로부터 적응적으로 fusion할 수 있는 새로운 방법론인 dynamic multimodal fusion (DynMM) 방법론을 제안함
이 섹션에서는, 본 연구에서 제안하는 DynMM의 주요 contribution을 제시한다. 첫째로, DynMM이 추론 과정에서 데이터 의존적인 forward path 생성을 가능하게 하는 새로운 decision making schemes를 소개한다. 이 때, 두 가지 레벨로 세분화하고 각각 modality-level (coarse level)과 fusion-level (fine level)의 decision making을 수행한다. 다음으로, DynMM을 위한 새로운 학습 전략을 소개한다: (1) 자원 예산(resource budgets)을 고려한 학습 목표 설정, (2) non-differentiable한 게이팅 네트워크의 최적화 방법.
다음과 같이 M개의 입력 모달리티 데이터가 존재한다고 가정
$$ X =(x_1, x_2, ...,x_m) $$
Mixture-of-Experts (MoE)의 framework에 따라, expert network의 집합을 다음과 같이 설계
e.g., 3개의 모달리티 데이터가 있다고 가정할 때 (M = 3)의 expert network 집합:
$$ E_1(x_1), E_2(x_2),E_3(x_3) \\ E_4(x_1,x_2), E_5(x_2,x_3), E_6(x_1,x_3) \\ E_7(x_1,x_2,x_3) $$
Modality-level Decision 동작 과정 (Figure 2 참고)
B: 선택 될 expert network의 개수
$G(X)$: 어떤 expert network가 활성화 될 것인지를 결정하는 gating network
최종적인 출력값: $y= \Sigma^B_{i=1}g_iE_i(X_i)$
⇒ 요약하면, Modality-level Decision process는 주어진 입력 데이터를 보고 gating network가 어떤 expert network를 활성화시킬지 의사 결정을 내리고 부분적인 모달리티 데이터만을 활용할 수 있도록 하여 computationally efficient하게 학습할 수 있도록 하는 것이 목표이다. 또한 $G(X)$는 미분이 불가능한 discrete한 $g$벡터를 출력하는 구조이기 때문에 학습을 위해 reparameterization techniques을 사용한다. 이는 뒤에서 자세히 설명한다.
Modality-level decision은 계산 효율성에 직접적인 영향을 미치지만, 특정 모달리티 데이터에 대한 계산을 완전히 건너뛰는 것은 특정 challenging한 tasks에 대해서는 오히려 성능 저하를 초래할 수 있는 가능성이 있음
Fusial-level Decision 동작 과정
$\{O_i\}$: fusion operation 집합
Figure 3 (a): 두 개의 입력 모달리티 데이터를 활용한 fusion cell의 example (i.e., two input modalities $X=(x_1,x_2)$ and three operations $O_1=x_1, \ O_2= x_1+x_2, \ O_3=w_1x_1 +w_2x_2$)
Figure 3 (b): Fusion cell을 stacking 하는 방법의 예시
Figure 3 (c): Fusion cell 1 & 2에서 $O_2$가 선택되고 fusion cell 3 & 4에서 $O_1$가 선택된 예시
⇒ Modality-level의 DynMM과 Fusion-level의 DynMM은 서로 다른 세분화 수준을 목표로 하는 두 가지 접근 방법이다. 본 연구에서는 modality-level DynMM을 사용하여 두 가지 classification task를 수행하였고, fusion-level DynMM은 보다 challenging한 task (e.g., sementic segmentation task)에서 적용하였다.