Towards Good Practices for Missing Modality Robust Action Recognition

Towards Good Practices for Missing Modality.pdf

Summary

Abstract

일반적인 멀티모달 모델은 학습과정과 추론과정에서 동일한 모달리티 데이터가 있다고 가정한다. 그러나, 실용적인 측면에서 보면 이러한 가정을 충족하는 환경이 아닌 경우들도 존재할 수 있다. 본 논문은 멀티모달 action recognition을 위한 실용적인 상황(Training 할 때는 모든 모달리티 존재, testing 할 때는 랜덤하게 일부 모달리티 누락되는 상황) 을 가정한다. 또한 ActionMAE라는 간단한 모듈 네트워크를 제안하여 일부 누락된 모달리티 데이터가 존재하면 그 데이터를 재구축(reconstruction)하도록 학습하고 실제 추론 과정에서 활용한다.

Introduction

연구 배경

Figure 1
- 기존 멀티모달 데이터 연구들이 항상 모든 데이터를 참조할 수 있다는 가정은 실용적인 측면으로 봤을 때 적절하지 않음을 주장
- Figure 1에서처럼 (a) → (c)인 상황들이 존재
연구 목표

Table 1
- 위 Table 1은 full-modality에서 학습시킨 모델을 일부 모달리티가 누락된 상황에서 testing 하였을 때의 성능을 비교한 결과
  
  ⇒ 모달리티 데이터가 누락되면 성능이 매우 저하되는 것을 확인
- 따라서 missing modality scenarios에서도 큰 성능 저하 없이 full-modality scenarios와 필적할만할 모델을 학습시키는 것이 목표

Method

Untitled