이질적(heterogeneous)이고 고차원적인(high-dimensional)한 데이터의 통합이 점점 더 중요해지고 있는 추세이다. 기존의 멀티모달 분류 알고리즘들은 주로 서로 다른 모달리티 데이터의 상호 보완성을 활용함으로써 모델의 성능을 향상시키는 것에 집중을 하였다. 그러나, 기존 방법론들은 신뢰할 수 있는 멀티모달 융향을 제공하는데에 약하며, 특히 의료 진단과 같은 안전이 중요한 응용 분야에서는 이러한 약점이 더욱 두드러진다. 이러한 문제를 해결하기 위해, 본 연구에서는 “Multimodal Dynamics” 라는 신뢰할 수 있는 멀티모달 분류 알고리즘을 제안한다. 이 알고리즘은 서로 다른 샘플에 대해 “feature-level” 과 “modality-level” 의 정보 유효성(informativeness)을 동적으로 평가하고, 그에 따라 신뢰할 수 있는 모달리티 통합을 수행한다. 구체적으로 각 모달리티 내 특징의 정보 변화를 포착하기 위해 sparse gating을 도입하여 각 모달리티 분류 신뢰도를 평가하기 위해 실제 클래스 확률을 사용한다. 최종적으로, 동적 정보 유효성 추정 전략(dynamical informativeness estimation strategy)를 제안한다.
멀티모달 학습은 다양한 스펙트럼의 응용 분야에서 인상적인 성과를 이뤄내고 있음
Representative multimodal 방법론들은 일반적으로 강력한 인공 신경망을 활용하여 서로 다른 모달리티에 대한 representation을 하나로 통합하는 방식을 사용
⇒ 이것을 근거로 본 연구의 저자들은 멀티모달 정보를 보다 우아한(?) 방식으로 활용하여 신뢰할 수 있는 멀티모달 융합을 생성하도록 영감을 주었다고 한다.
전통적인 멀티모달 학습의 방법론들은 주로 강력한 신경망 구조를 활용하여 서로 다른 모달리티 간의 상관 관계 및 보완 정보를 탐색함으로써 공통 또는 결합된 표현을 얻는데 중점을 두었음
본 연구에서는 신뢰할 수 있는 멀티모달 분류를 위한 Multimodal Dynamics를 제안함
Problem Setup
$$ \{\{X^m_n\}^M_{m=1}, y_n\}\}^N_{n=1} $$
Goal of multimodal classification
$$ f:\{X^m\}^M_{m=1} \rightarrow y $$
고차원의 특징 벡터 $X^m \in \R^{d_m}$가 주어졌을 때, 일반적으로는 class label과 관련된 특징들의 부분 집합이 존재하며, 이는 classification에서 서로 다른 특징들의 정보 유효성을 반영함
⇒ 모든 features가 중요한 것이 아니고 특징 벡터의 일부분만 정보의 유효성을 갖는다는 것을 가정으로 $l_1$정규화를 손실함수로 사용하는 등의 기법을 활용해서 모델이 특징 벡터를 sparse하게 만는 방법을 sparsity induce model이라 말한다. 저자는 이러한 기법을 활용하여 feature-level informativeness sparse하게 만드려고 하는 것 같다.
Feature-level의 정보 유효성을 식별하기 위해, 모달리티별 인코더 네트워크를 학습시킴
$$ E^m: X^m \rightarrow W^m \ ,where \ W^m \in \R^{d_m} \\
W^m = \sigma(E^m(X^m)) =[w^m_1, ..., w^m_{d_m}] \ \ \ \ (1) $$
⇒ 입력으로 모달리티별 특징 벡터가 주어지면 인코더는 각 특징 벡터에 맞는 weights vector를 산출한다. 수식 (1)에 의해 $W_m$의 scale이 0~1로 맞춰진다.