Multi-modal Emotion Recognition Utilizing Korean-English Vision and Language Information Alignment Pre-trained Model.pdf
Abstract
- Introduction
- Contributions
- 새로운 데이터셋 구축
- 기존의 Vision + Language 데이터셋 융합하여 multi-modal dataset 구축
- 멀티모달리티 처리 모델 “VL-KE-T5” 제안
- Image, text 정보 동시에 인코딩 및 활용
- Conclusion
- 제안하는 multi-modal 모델이 기존 uni-modal 보다 좋은 성능 기록
Introduction
Related Work
- Previous approaches
- audio-text, audio-video, text-audio-video
- Limitation
Multi-modal Emotion Recognition Model





- Backbone model VL-KE-T5
- KE-T5
- 한국어 기반 언어 모델
- Korean & English corpora에 대해 사전학습
- Vit : 컴퓨터 비전 기반 이미지처리 모델