[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
2023.11.23
Abstract Multi-modal 분야의 Video-Text Retrieval 을 위한 CLIP4Clip 이라는 end-to-end 모델을 제안합니다. 본 논문의 메인 아이디어는, 기존의 image-language pretraining 모델인 CLIP 을 video-language 분야로 knowledge transfer 한 것입니다. similarity calculator 를 세 가지 타입으로 디자인했고, 여러 실험을 통해 분석합니다. 추가로, 당시에 CLIP4Clip 모델은 여러 video-text retriveal datasets (MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo) 에서 SOTA 를 달성했었다고 합니다. (지금은 CLIP2TV, CaMoE 등의 모델이 ..