[arXiv 2021] Multimodal End-to-End Sparse Model for Emotion Recognition
2023.11.23
감정인식 관련 논문입니다. 저번 리뷰의 음성 인식처럼 한 가지 모달리티가 아니라, 총 세 가지의 모달리티 (video, audio, text) 를 이용하여 감정을 인식하는 task 에 대해 다루고 있습니다. 리뷰를 시작하기 전에 간단히 요약하자면 아래와 같습니다. 기존의 two-phase (2단계)의 파이프라인을 사용하는 모델이 아닌, Fully End-to-end (FE2E) 모델을 Emotion recognition task 에 도입하였다. 이때 사용할 수 있도록, 기존에 있던 두 가지의 데이터셋을 재구성하였다. FE2E 방식은 computational overhead 가 발생한다는 단점이 있었으므로, 이를 감소시키면서도 성능은 유지하는 Multimodal End-to-End Sparse model ..