Abstract

본 연구에서는 convolution-free Transformer 구조를 활용하여 unlabeled 데이터로부터 multimodal representation을 학습할 수 있는 프레임워크를 제안한다. 구체적으로 제안하는 Video-Audio-Text Transformer (VATT)은 raw signal을 입력으로 받아 downstream task들을 수행하기에 이점이 있는 충분히 다양한 정보를 가진 multimodal representation을 출력한다. VATT는 multimodal contrastive losses로 단대단으로 학습하고 성능을 평가하기 위해 video action recognition, audio event classification, image classification, and text-to-video retrieva 과 같은 downstream tasks을 평가한다.

Introduction

Approach

Tokenization and Positional Encoding

https://www.youtube.com/watch?v=rgXxAFIBido&t=585s

https://www.youtube.com/watch?v=rgXxAFIBido&t=585s


Untitled