Abstract

Deep Multimodal learning은 최근 몇 년 동안 굉장한 진전을 이루어내고 있다. 그러나, 현재의 멀티모달 퓨전 방법론들은 동적인 성격을 지닌다. 예를 들어, 서로 다른 멀티모달 데이터의 다양한 계산적인 요구를 고려하지 않고 동일한 비중을 두고 퓨전을 수행한다. 본 연구에서는, 적응적으로 멀티 모달리티 데이터를 퓨전하고 추론 과정에서 데이터 의존적인 forward paths를 생성할 수 있는 새로운 방법론인 dynamic multimodal fusion (DynMM)을 소개한다. 이를 위해, 멀티모달리티 features에 기반하여 상황에 따라modality-level 또는 fusion-level decisions을 제공하기 위한 gating function을 제안하고 계산 비용적으로 효율성을 장려하기 위한 resource-aware loss function을 소개한다. 다양한 멀티모달 task에 대한 실험 결과는 효율성과 제안하는 방법론의 광범위한 적용 능력을 입증한다.

Introduction

인간은 시각, 청각, 촉각, 미각 등 다양한 감각을 통해 멀티모달 방식으로 세상을 인식함
- 최근, 멀티 모달리티 데이터를 활용한 딥러닝 기반의 방법론들이 상당한 진보를 이루어내고 있음
- 결과적으로, 멀티 모달리티 퓨전은 sentiment analysis, action recognition, semantic segmentation과 같은 많은 분류 문제의 성능 가속화를 이끌어 냄
이러한 진보에도 불구하고, 여러 모달리티로 특징지어진 정보를 최적으로 조합하는 방법은 멀티모달 학습에서 여전히 근본적인 과제로 남아 있음
- 효과적으로 멀티모달 데이터를 퓨전하기 위한 방법론들의 연구들이 진행되어지고 있음
- 이러한 방법론들은 일반적으로 task와 modality-specific하고 manual한 design을 요구함
- Neural Architecture Search (NAS)의 성공을 기반으로, 최근 연구들은 효과적인 fusion architectures를 자동적으로 찾기 위해 NAS를 채택함
그러나 manually-designed와 NAS-based 방법로들은 모든 instances를 하나의 fusion architecture로 처리하고 다양한 멀티모달 데이터의 adaptability가 부족한 실정
- 다시 말해서, 일단 fusion network가 학습되고 나면, 서로 다른 멀티모달 입력의 고유한 특성 차이를 고려하지 않고 각 데이터에 대해 정적 추론을 수행함
- 이러한 특성으로 인해 computational efficiency와 잘 디자인된 fusion architecture의 표현 능력 측면으로 한계점이 있을 수 있음
⇒ 저자들은 Input data의 상황에 따라서 dynamic하게 fusion 하는 것이 아니라 항상 static하게 모든 모달리티 데이터를 uniform하게 fusion하는 방법으로 인해 계산 비용적 또는 표현 능력 측면으로 손해를 볼 수 있다고 주장한다.
- 단적인 예로써, Figure 1의 두 가지 예시에서 (a)의 경우 Text 모달리티만을 활용해도 충분히 positive한 emotion을 예측할 수 있을 것으로 보이고 (b)의 경우 모호하기 때문에 Vision 과 Audio 모달리티 데이터의 도움을 받아 예측하는 것이 좋아 보임
- 이러한 예시를 통해, (b)의 “hard” 입력의 경우 모델이 풍부한 표현 능력을 학습이 가능하게 하고 반면 (a)의 “easy” 입력의 경우 계산 효율 측면으로 redundancy를 초래할 수 있다는 것을 확인할 수 있음
이러한 관찰을 직관으로, 본 연구에서는 다양한 모달리티 입력 데이터로부터 적응적으로 fusion할 수 있는 새로운 방법론인 dynamic multimodal fusion (DynMM) 방법론을 제안함
- 기존 static한 방법론과 비교하였을 때, DynMM은 계산 비용 측면으로도 이점이 있고 표현력 측면으로도 더 강건하고 파워풀한 표현을 학습할 수 있음
- 구체적으로, DynMM은 “easy” input에 대해서는 계산 비용을 save할 수 있고 “hard” 입력의 경우 모든 모달리티 데이터와 복잡한 fusion operations에 의존함으로써 더 강력한 표현을 학습할 수 있음
- 게다가, 현실 세계의 멀티모달리티 데이터는 noisy하거나 contradictory할 수 있기 때문에, 이러한 데이터를 skip하는 것이 성능 향상에 도움이 될 수 있음을 주장함

Method

이 섹션에서는, 본 연구에서 제안하는 DynMM의 주요 contribution을 제시한다. 첫째로, DynMM이 추론 과정에서 데이터 의존적인 forward path 생성을 가능하게 하는 새로운 decision making schemes를 소개한다. 이 때, 두 가지 레벨로 세분화하고 각각 modality-level (coarse level)과 fusion-level (fine level)의 decision making을 수행한다. 다음으로, DynMM을 위한 새로운 학습 전략을 소개한다: (1) 자원 예산(resource budgets)을 고려한 학습 목표 설정, (2) non-differentiable한 게이팅 네트워크의 최적화 방법.

Modality-level Decision

다음과 같이 M개의 입력 모달리티 데이터가 존재한다고 가정

$$ X =(x_1, x_2, ...,x_m) $$
Mixture-of-Experts (MoE)의 framework에 따라, expert network의 집합을 다음과 같이 설계
- e.g., 3개의 모달리티 데이터가 있다고 가정할 때 (M = 3)의 expert network 집합:
  
  $$ E_1(x_1), E_2(x_2),E_3(x_3) \\ E_4(x_1,x_2), E_5(x_2,x_3), E_6(x_1,x_3) \\ E_7(x_1,x_2,x_3) $$
Modality-level Decision 동작 과정 (Figure 2 참고)
- B: 선택 될 expert network의 개수
- $G(X)$: 어떤 expert network가 활성화 될 것인지를 결정하는 gating network
  - 입력으로 멀티모달 데이터 $X$ 를 받아 출력으로 어떤 모달리티 데이터를 활성할 것인지에 대한 B차원의 sparse한 vector $g$ 를 산출
- 최종적인 출력값: $y= \Sigma^B_{i=1}g_iE_i(X_i)$
  - $X_i$: 다중 모달리티 데이터의 부분 집합
  - $g_i$: B차원의 one-hot vector
  ⇒ 요약하면, Modality-level Decision process는 주어진 입력 데이터를 보고 gating network가 어떤 expert network를 활성화시킬지 의사 결정을 내리고 부분적인 모달리티 데이터만을 활용할 수 있도록 하여 computationally efficient하게 학습할 수 있도록 하는 것이 목표이다. 또한 $G(X)$는 미분이 불가능한 discrete한 $g$벡터를 출력하는 구조이기 때문에 학습을 위해 reparameterization techniques을 사용한다. 이는 뒤에서 자세히 설명한다.
Fusion-level Decision
Modality-level decision은 계산 효율성에 직접적인 영향을 미치지만, 특정 모달리티 데이터에 대한 계산을 완전히 건너뛰는 것은 특정 challenging한 tasks에 대해서는 오히려 성능 저하를 초래할 수 있는 가능성이 있음
- 따라서, 다음으로 fusion-level decisions를 포함한 DynMM의 더 세분화된 형식을 제시함
Fusial-level Decision 동작 과정
- $\{O_i\}$: fusion operation 집합
  - i.e., identity mapping: $O_i=x_1$
  - Addition: $O_i=x_1+x_2+...+x_m$
  - Concatenation: $O_i=[x_1,x_2,...,x_m]$
  - Self-attention
- Figure 3 (a): 두 개의 입력 모달리티 데이터를 활용한 fusion cell의 example (i.e., two input modalities $X=(x_1,x_2)$ and three operations $O_1=x_1, \ O_2= x_1+x_2, \ O_3=w_1x_1 +w_2x_2$)
  - B: total number of operations
  - $g_i$: hard-gate (one-hot vector)
  - $h=\Sigma^B_{i=1}g_iO_i(X)$
- Figure 3 (b): Fusion cell을 stacking 하는 방법의 예시
  - Four fusion cells and a global gating network로 구성
- Figure 3 (c): Fusion cell 1 & 2에서 $O_2$가 선택되고 fusion cell 3 & 4에서 $O_1$가 선택된 예시
  - Complex fusion operation을 skip할 수 있는 것 뿐만 아니라, 불필요한 feature extraction layers (Block 3 and 4 of the white box)의 계산을 줄일 수 있음
⇒ Modality-level의 DynMM과 Fusion-level의 DynMM은 서로 다른 세분화 수준을 목표로 하는 두 가지 접근 방법이다. 본 연구에서는 modality-level DynMM을 사용하여 두 가지 classification task를 수행하였고, fusion-level DynMM은 보다 challenging한 task (e.g., sementic segmentation task)에서 적용하였다.

Abstract

Introduction

Method

Modality-level Decision

Fusion-level Decision