Summary

Abstract

소셜 미디어에서 비꼼(Sarcasm)은 감성 분석에 중요한 역할을 한다. 비꼼 대상 식별(Sarcasm Target Identification, STI)은 비꼼을 깊이 이해하기 위한 더 많은 연구가 필요하다. 그러나, 맥락이 부족하거나 비꼼 대상이 확실하지 않은 경우 대상 식별이 매우 어려워지는 문제가 있다. 본 논문에서는, STI에 다중 모달리티(Multimodality)를 도입함으로써 Multimodal Sarcasm Target Identification (MSTI) task를 제시한다. 저자들은 텍스트 대상 라벨링(Textual target labeling)과 시각적 대상 감지(Visual target detection)을 동시에 수행할 수 있는 “multi-scale crossmodality model” 을 제안한다.

Introduction

비꼼(Sarcasm) 분석이 필요한 이유
- 비꼼은 주로 화자가 대상에 대한 부정적인 감정을 과도한 긍정어 등을 사용해서 말함
- 트위터와 같은 SNS로부터 취득된 데이터에 풍푸하게 존재
⇒ Sarcasm Target Identification은 Customer Service, Opinion Mining, Online Harassment Detection에서 큰 의미를 지닌다.
기존 연구의 접근법
- 비꼼 대상을 분석하기 위해 오로지 텍스트 정보만을 활용
⇒ 저자는 텍스트 정보만을 활용하면 정확한 비꼼 대상을 식별하기 어렵다고 주장
한계점
- 텍스트 정보만으로 정확한 비꼼 대상 식별 어려움
  - 예를 들어, Figure (a)에서 “definitely deserves $15 an hour!” 라는 텍스트 정보만 주어졌다고 가정하면, 해당 문장이 대상을 비꼬는 것인지 아닌지 판별하기 매우 어려운 상황들이 존재
- 또한 비꼼 대상이 텍스트 정보에 직접적으로 드러나지 않는 경우도 존재(데이터의 대략 30%이상)
  - 예를 들어, Figure (b)에서 텍스트는 여성이 너무 긴 스커트를 입고 있는 것에 대해 비꼬는 상황으로 비꼼 대상이 스커트임
⇒ 이를 정확히 분석하려면, 이미지에 대한 정보를 함께 활용해야 한다고 주장
제안 방법
- “Multimodal Sarcasm Target Identification” 이라는 새로운 task 제안
  - 텍스트와 이미지에서 비꼼 대상을 추출하는 것을 목표로 함
    - Textual ST : 단어(Word) 또는 구(Phase)
    - Visual ST : 경계 상자(Bounding Box)로 레이블링된 객체
- 본 논문의 기여점
  - MSTI 라는 task를 제안한 첫 번째 시도
    - MSTI를 수행하기 위한 데이터셋 구축과 모델 프레임워크 제안
  - Cross-modality attention visualization 방법 제안
  - 다양한 실험 결과 제시