[WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning
비디오 검색 관련 논문 리뷰입니다! 오늘은 self-attention 기법을 사용하여 frame-level features 간의 시간 정보를 통합해서, 좀 더 긴 정보를 가진 video representation 을 학습해내는 framework, TCA 에 대해 알아볼 것입니다.
우선 비디오와 비디오를 비교하여 유사도를 예측하여 검색을 하는, Content-Based Video Retrieval 문제 중에는 여러 분야가 있습니다.
- Near-Duplicate Video Retrieval (NDVR)
- Fine-grained Incident Video Retrieval (FIVR)
- Event-based Video Retreival (EVR)
NDVR 과는 비교했을 때 , FIVR 과 EVR 는 ‘사건’에 대한 것이기 때문에 좀 더 시간에 걸친 의미론적인 정보에 대한 의존성이 높습니다. 그렇기 때문에 high-level representation을 학습해야 하고, 공간 정보 뿐만 아니라 시간 정보를 많이 고려해야하니까 어려운 문제라고 할 수 있죠.
CBVR 문제를 해결하기 위해 비디오의 특성을 뽑아내는 방식은 크게 두 가지가 있는데, 첫째는 video-level representation 이고, 둘째는 frame-level representation 입니다. 말 그대로 각 레벨에서 representation을 뽑는 것인데, 이를 이용하여 비디오 간의 similarity 를 구하여 비교하게 됩니다.
두 방법 모두 비디오를 갖고 짧은 clips 이나 하나의 frame 으로 생각되어 가공되기 때문에, 많은 프레임에서 긴 시간 동안 지켜봐야 알 수 있는 의미론적인 시간 정보은 얻기가 어렵게 됩니다.
이 논문에서는 Self-attention 기법이라는 것에 영향을 받아, frame-level features 간의 시간적 정보를 통합할 것을 제안합니다. 이를 이용하면 좀 더 시간적 의존성이 커져서, 우리가 풀고 싶어하는 문제와 좀 더 연관있고 robust 한 feature 를 만들 수 있을 거예요.
또한 이 논문에서는 Video retrieval 에서도 Supervised Contrastive learning 을 사용할 것을 제안합니다. 이건 이 기법을 사용하기 위해 필요한 negative 한 samples 가 video retrieval datasets 에 충분히 있는 덕분이라고도 합니다.
마지막으로, 이 논문에서 제안된 방법이 automatic hard-negative mining 을 해주는 특성도 있다고 합니다. 이러면 최종 성능을 올릴 수 있다는 장점이 있다고 해요.
실험은 CC_WEB_VIDEO, FIVR, EVVE 에서 수행되었습니다. 제안한 방법론 TCA가 video-level 에 대해 sota 를 달성했고, frame-level 에 대해 22배 빠른 inference time 을 달성했다고 하네요.
Problem Setting
dataset 은 두 개의 split 으로 이루어져 있습니다.
- core : 어떤 두 비디오가 유사한지에 대해, pair-wise label 을 가집니다. (near duplicate, complementary scene, same event 등)
- disctractor : retrieval 문제를 더 어렵게 만들기 위해, negative samples 을 포함합니다.
두 비디오에 대한 정보로 RGB 상태의 raw pixel 이 주어지면, 이로부터 frame-level / video-level descriptor 가 추출해서 유사도를 구합니다. 이때 이 유사도 값이 클 수록 두 비디오는 더 유사한 것입니다.
해당 논문에서 제안하는 temporal context aggregation modeling module은 여기서 f 와 동일하다고 보면 되는데, frame-level descriptor 를 input 으로 받아 aggregated video-level descriptor 를 만들거나, 더 발전된 refined frame-level descriptors 를 만드는 것이 이 모듈의 역할입니다.
Feature Extraction
Feature extraction 을 하는 방법은 아래의 table 의 결과를 바탕으로 선택하였습니다.
Temporal Context Aggregation
temporal context aggregation 을 할 때는 Transformer model 의 encoder 구조를 사용합니다.
Transformer 는 self-attention 기법을 사용하기 때문에 video 의 frame sequence 에 걸쳐져 있는 long-term dependencies 를 좀 더 잘 모델링할 수 있게 됩니다. Attention 은 parmeter matrix 에 Q, K, V 를 적용하여 얻을 수 있는데, 이게 LayerNorm layer 와 FeedForward Layer 로 들어가고, input 인 frame-level descriptor 를 Transformer encoder에 넣으면 이로부터 ouput feature 를 얻을 수 있게 됩니다.
이 output feature의 시간 축에 따른 평균을 구하면, (시간으로 나눈다는 뜻) 좀 더 compact 한 video-level representation 을 얻을 수도 있습니다.
Contrastive Learning
dataset 은 anchor, positive, negative examples 로 이루어져 있습니다. 이에 대한 video-level representation 을 이용하여, 각 similarity scores 를 구하고, 이를 이용하여 InfoNCE loss 를 구할 수 있습니다. 이 Loss 같은 경우, Contrastive Predictive Coding 을 사용하여 Representation Learning 을 하는 논문에서 제안된 함수입니다. 또한 Circle Loss 라는 함수를 이용하여 구할 수도 있습니다. 이는 InfoNCE Loss 와 비교했을 때, positive simlarity 와 negative similarity 를 분리하여 최적화 한다는 이점이 있습니다.
Similarity Measure
Chamfer similarity :
Chamfer similarity (symmetric version) :
Cosine similarity (compact video descriptor) :
Experiments
- Video Retrieval Task : NDVR, FIVR, EVR
- Metric : mAP (mean Average Precision)
- Training dataset : VCDB dataset
- Evaluation dataset : NVDR -> CC_WEB_VIDEO, FIVR -> FIVR-200K, FIVR-5K, EVR -> EVVE
Ablation Study
빠른 Ablation study 를 위해 FIVR-200K 뿐만 아니라 그 일부인 FIVR-5K도 사용하였다고 합니다.
(a) Model : Transformer 의 성능이 가장 좋았습니다. 이는 long-term temporal dependency modeling 을 가능케 한 self-attention 기법 덕분으로 보입니다.
(b) Feature : L3-iRMAC 이 iMAC 보다 성능이 좋았습니다. 이는 local 한 지역 공간 정보가 좀 더 많이 활용되었기 때문으로 보입니다.
(c) : Loss function : Contrastive learning 에 사용한 loss 함수를 γ = 1/τ 에 따라 비교했는데, 값을 조정해도 InfoN 를 사용한 경우는 Circle 를 사용한 경우보다 항상 낮은 mAP 를 보였습니다.
(d) : Memory Bank : memory bank 의 size 에 대해 비교를 하였습니다. memory bank 의 크기가 클 수록 성능이 점차 좋아지는 것을 볼 수 있었으므로, negative samples 의 양은 많을 수록 좋다는 걸 보여준 것입니다. 또한 hard negative mining 을 사용하는 triplet based approach 와도 비교해보았는데, 이 기법은 시간이 해당 논문의 방법보다 많이 듦에도 불구하고 더 낮은 성능을 보였습니다.
(f) : Similarity Measure : video-level 은 cosine similarity, frame-level 은 chamfer similarity (+a) 를 사용했다. video-level 보다는 frame-level 로 한 경우가 성능이 좋았습니다. comparator 를 사용한 경우가 성능이 안좋았는데, 본 논문에서는 features 간의 bias 문제 때문이라고 주장했습니다.
Comparision against Sota
similarity measure 에 따라 TCA 에 대한 각 방법론을 아래와 같이 부르게 됩니다.
- TCA_c : cosine (video-level)
- ——————————————
- TCA_f : chamfer (frame-level)
- TCA_sym : symmetric-chmafer
- TCA_v : video-comparator
결과를 보면 대체로 sota 를 달성하였습니다. 다만 몇 가지 짚고 넘어갈 부분이 있기도 합니다.
NDVR 에서 video-level 쪽에서는 sota 인데, frame-level 에서는 sota가 아녔다고 합니다. 저자는 해당 논문은 좋은 video representation 을 학습하는 것이 목적이었고, similarity calculation 에 따라 달라질 수 있으므로 우리는 이걸 빨리 효율적으로 할 수록 이득이라고 말하였습니다. 그리고, TCA_f 와 ViSiL_f 가 유사한 simialrity calculation 을 사용하니까, 이 둘을 비교하는 게 더 공평하다고 말했습니다.
FIVR에서는 마찬가지로 video-level 쪽에서는 sota 고 frame-level 에서는 아녔는데, 이는 성능이 낮지만 소요되는 시간이 22배 정도 빠른 장점이 있다고 합니다. EVR 에서는 특이하게도 video-level 쪽에서 TCA_c 가 sota 를 달성했고, frame-level 까지 포함했을 때 TCA_sym 이 sota 를 달성했습니다. video-level 이 아닌 frame-level 이 sota 인 것을 보면서, 어쩌면 EVR 문제에서, temporal inmformation 과 fine-grained spatial information 이 사실은 필수가 아닌 게 아닐까… 라며 저자는 의견을 냈습니다.
TCA 를 이용하여 시각화 한 것들을 보여주었습니다.
figure 5 에는 self-attention 기법의 효과를 눈으로 보기 위해 만든 것입니다. 이를 이용하면 frame, clips 뿐만 아니라 비디오의 거의 전체에 대한 long-range semantic dependencies 를 모델링할 수 있습니다.
특히 figure 6 같은 경우는, DML 과 비교했을 때 TCA_c 가 relevant videos 에서 얻은 refined features 끼리 잘 clusters 를 만들어 뭉쳐있음을 보여줍니다. 또한, 회색의 distractors 가 색칠된 core 들과 잘 떨어져있음을 알 수 있습니다.
'📰논문 리뷰' 카테고리의 다른 글
댓글
이 글 공유하기
다른 글
-
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision
2023.11.23 -
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
2023.11.23 -
[TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos
[TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos
2023.11.23 -
[CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding
[CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding
2023.11.23