[WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning

2023. 11. 23. 20:07·📰논문 리뷰
목차
  1. Problem Setting
  2. Feature Extraction
  3. Temporal Context Aggregation
  4. Contrastive Learning
  5. Similarity Measure
  6. Experiments
  7. Ablation Study
  8. Comparision against Sota

비디오 검색 관련 논문 리뷰입니다! 오늘은 self-attention 기법을 사용하여 frame-level features 간의 시간 정보를 통합해서, 좀 더 긴 정보를 가진 video representation 을 학습해내는 framework, TCA 에 대해 알아볼 것입니다.

우선 비디오와 비디오를 비교하여 유사도를 예측하여 검색을 하는, Content-Based Video Retrieval 문제 중에는 여러 분야가 있습니다.

  • Near-Duplicate Video Retrieval (NDVR)
  • Fine-grained Incident Video Retrieval (FIVR)
  • Event-based Video Retreival (EVR)

NDVR 과는 비교했을 때 , FIVR 과 EVR 는 ‘사건’에 대한 것이기 때문에 좀 더 시간에 걸친 의미론적인 정보에 대한 의존성이 높습니다. 그렇기 때문에 high-level representation을 학습해야 하고, 공간 정보 뿐만 아니라 시간 정보를 많이 고려해야하니까 어려운 문제라고 할 수 있죠.

CBVR 문제를 해결하기 위해 비디오의 특성을 뽑아내는 방식은 크게 두 가지가 있는데, 첫째는 video-level representation 이고, 둘째는 frame-level representation 입니다. 말 그대로 각 레벨에서 representation을 뽑는 것인데, 이를 이용하여 비디오 간의 similarity 를 구하여 비교하게 됩니다.

두 방법 모두 비디오를 갖고 짧은 clips 이나 하나의 frame 으로 생각되어 가공되기 때문에, 많은 프레임에서 긴 시간 동안 지켜봐야 알 수 있는 의미론적인 시간 정보은 얻기가 어렵게 됩니다.

이 논문에서는 Self-attention 기법이라는 것에 영향을 받아, frame-level features 간의 시간적 정보를 통합할 것을 제안합니다. 이를 이용하면 좀 더 시간적 의존성이 커져서, 우리가 풀고 싶어하는 문제와 좀 더 연관있고 robust 한 feature 를 만들 수 있을 거예요.

또한 이 논문에서는 Video retrieval 에서도 Supervised Contrastive learning 을 사용할 것을 제안합니다. 이건 이 기법을 사용하기 위해 필요한 negative 한 samples 가 video retrieval datasets 에 충분히 있는 덕분이라고도 합니다.

마지막으로, 이 논문에서 제안된 방법이 automatic hard-negative mining 을 해주는 특성도 있다고 합니다. 이러면 최종 성능을 올릴 수 있다는 장점이 있다고 해요.

실험은 CC_WEB_VIDEO, FIVR, EVVE 에서 수행되었습니다. 제안한 방법론 TCA가 video-level 에 대해 sota 를 달성했고, frame-level 에 대해 22배 빠른 inference time 을 달성했다고 하네요.

 

Problem Setting

dataset 은 두 개의 split 으로 이루어져 있습니다.

  • core : 어떤 두 비디오가 유사한지에 대해, pair-wise label 을 가집니다. (near duplicate, complementary scene, same event 등)
  • disctractor : retrieval 문제를 더 어렵게 만들기 위해, negative samples 을 포함합니다.

두 비디오에 대한 정보로 RGB 상태의 raw pixel 이 주어지면, 이로부터 frame-level / video-level descriptor 가 추출해서 유사도를 구합니다. 이때 이 유사도 값이 클 수록 두 비디오는 더 유사한 것입니다.

해당 논문에서 제안하는 temporal context aggregation modeling module은 여기서 f 와 동일하다고 보면 되는데, frame-level descriptor 를 input 으로 받아 aggregated video-level descriptor 를 만들거나, 더 발전된 refined frame-level descriptors 를 만드는 것이 이 모듈의 역할입니다.

 

Feature Extraction

Feature extraction 을 하는 방법은 아래의 table 의 결과를 바탕으로 선택하였습니다.

ViSiL 의 feature extraction and similarity calculation comparision

 

Temporal Context Aggregation

temporal context aggregation 을 할 때는 Transformer model 의 encoder 구조를 사용합니다.

Transformer 는 self-attention 기법을 사용하기 때문에 video 의 frame sequence 에 걸쳐져 있는 long-term dependencies 를 좀 더 잘 모델링할 수 있게 됩니다. Attention 은 parmeter matrix 에 Q, K, V 를 적용하여 얻을 수 있는데, 이게 LayerNorm layer 와 FeedForward Layer 로 들어가고, input 인 frame-level descriptor 를 Transformer encoder에 넣으면 이로부터 ouput feature 를 얻을 수 있게 됩니다.

이 output feature의 시간 축에 따른 평균을 구하면, (시간으로 나눈다는 뜻) 좀 더 compact 한 video-level representation 을 얻을 수도 있습니다.

Contrastive Learning

dataset 은 anchor, positive, negative examples 로 이루어져 있습니다. 이에 대한 video-level representation 을 이용하여, 각 similarity scores 를 구하고, 이를 이용하여 InfoNCE loss 를 구할 수 있습니다. 이 Loss 같은 경우, Contrastive Predictive Coding 을 사용하여 Representation Learning 을 하는 논문에서 제안된 함수입니다. 또한 Circle Loss 라는 함수를 이용하여 구할 수도 있습니다. 이는 InfoNCE Loss 와 비교했을 때, positive simlarity 와 negative similarity 를 분리하여 최적화 한다는 이점이 있습니다.

 

 

Similarity Measure

Chamfer similarity :

 

Chamfer similarity (symmetric version) :

 

Cosine similarity (compact video descriptor) :

 

Experiments

  • Video Retrieval Task : NDVR, FIVR, EVR
  • Metric : mAP (mean Average Precision)
  • Training dataset : VCDB dataset
  • Evaluation dataset : NVDR -> CC_WEB_VIDEO, FIVR -> FIVR-200K, FIVR-5K, EVR -> EVVE

Ablation Study

빠른 Ablation study 를 위해 FIVR-200K 뿐만 아니라 그 일부인 FIVR-5K도 사용하였다고 합니다.

(a) Model : Transformer 의 성능이 가장 좋았습니다. 이는 long-term temporal dependency modeling 을 가능케 한 self-attention 기법 덕분으로 보입니다.

(b) Feature : L3-iRMAC 이 iMAC 보다 성능이 좋았습니다. 이는 local 한 지역 공간 정보가 좀 더 많이 활용되었기 때문으로 보입니다.

(c) : Loss function : Contrastive learning 에 사용한 loss 함수를 γ  = 1/τ 에 따라 비교했는데, 값을 조정해도 InfoN 를 사용한 경우는 Circle 를 사용한 경우보다 항상 낮은 mAP 를 보였습니다.

(d) : Memory Bank : memory bank 의 size 에 대해 비교를 하였습니다. memory bank 의 크기가 클 수록 성능이 점차 좋아지는 것을 볼 수 있었으므로, negative samples 의 양은 많을 수록 좋다는 걸 보여준 것입니다. 또한 hard negative mining 을 사용하는 triplet based approach 와도 비교해보았는데, 이 기법은 시간이 해당 논문의 방법보다 많이 듦에도 불구하고 더 낮은 성능을 보였습니다.

(f) : Similarity Measure : video-level 은 cosine similarity, frame-level 은 chamfer similarity (+a) 를 사용했다. video-level 보다는 frame-level 로 한 경우가 성능이 좋았습니다. comparator 를 사용한 경우가 성능이 안좋았는데, 본 논문에서는 features 간의 bias 문제 때문이라고 주장했습니다.

Comparision against Sota

similarity measure 에 따라 TCA 에 대한 각 방법론을 아래와 같이 부르게 됩니다.

  • TCA_c : cosine (video-level)
  • ——————————————
  • TCA_f : chamfer (frame-level)
  • TCA_sym : symmetric-chmafer
  • TCA_v : video-comparator

결과를 보면 대체로 sota 를 달성하였습니다. 다만 몇 가지 짚고 넘어갈 부분이 있기도 합니다.

NDVR 에서 video-level 쪽에서는 sota 인데, frame-level 에서는 sota가 아녔다고 합니다. 저자는 해당 논문은 좋은 video representation 을 학습하는 것이 목적이었고, similarity calculation 에 따라 달라질 수 있으므로 우리는 이걸 빨리 효율적으로 할 수록 이득이라고 말하였습니다. 그리고, TCA_f 와 ViSiL_f 가 유사한 simialrity calculation 을 사용하니까, 이 둘을 비교하는 게 더 공평하다고 말했습니다.

FIVR에서는 마찬가지로 video-level 쪽에서는 sota 고 frame-level 에서는 아녔는데, 이는 성능이 낮지만 소요되는 시간이 22배 정도 빠른 장점이 있다고 합니다. EVR 에서는 특이하게도 video-level 쪽에서 TCA_c 가 sota 를 달성했고, frame-level 까지 포함했을 때 TCA_sym 이 sota 를 달성했습니다. video-level 이 아닌 frame-level 이 sota 인 것을 보면서, 어쩌면 EVR 문제에서, temporal inmformation 과 fine-grained spatial information 이 사실은 필수가 아닌 게 아닐까… 라며 저자는 의견을 냈습니다.

TCA 를 이용하여 시각화 한 것들을 보여주었습니다.

figure 5 에는 self-attention 기법의 효과를 눈으로 보기 위해 만든 것입니다. 이를 이용하면 frame, clips 뿐만 아니라 비디오의 거의 전체에 대한 long-range semantic dependencies 를 모델링할 수 있습니다.

특히 figure 6 같은 경우는, DML 과 비교했을 때 TCA_c 가 relevant videos 에서 얻은 refined features 끼리 잘 clusters 를 만들어 뭉쳐있음을 보여줍니다. 또한, 회색의 distractors 가 색칠된 core 들과 잘 떨어져있음을 알 수 있습니다.

저작자표시 (새창열림)

'📰논문 리뷰' 카테고리의 다른 글

[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision  (0) 2023.11.23
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval  (0) 2023.11.23
[TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos  (0) 2023.11.23
[CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding  (0) 2023.11.23
[ACMMM 2007] Practical Elimination of Near-Duplicates from Web Video Search  (0) 2023.11.23
  1. Problem Setting
  2. Feature Extraction
  3. Temporal Context Aggregation
  4. Contrastive Learning
  5. Similarity Measure
  6. Experiments
  7. Ablation Study
  8. Comparision against Sota
'📰논문 리뷰' 카테고리의 다른 글
  • [PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision
  • [arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
  • [TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos
  • [CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding
힝님
힝님
힝입니다.
컴01기힝입니다.
  • 힝님
    컴01기
    힝님
  • 전체
    오늘
    어제
    • 분류 전체보기 (86)
      • 📰논문 리뷰 (16)
      • 🍒회고록 (4)
      • 🖤네이버 ai tech (0)
      • ✨글쓰는힝 (1)
      • 🔥데이터 분석 (3)
      • 🎲유니티 (2)
      • 🔨삽질 (10)
      • 📚 서적 리뷰 (4)
      • 🐹알고리즘 (3)
      • 😎정리하는 카테고리 (4)
      • 📝CS 공부 (6)
        • 운영체제 (1)
        • 네트워크 (4)
        • 리팩토링 (1)
      • etc (22)
        • 혼공단 (7)
        • Spring (7)
        • JS (1)
        • OpenCV (2)
        • Unity (5)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

    • Github
  • 공지사항

  • 인기 글

  • 태그

    혼공머신
    혼공학습단
    백준
    회고록
    github
    unity
    혼공단
    혼공SQL
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
힝님
[WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.