이 영역을 누르면 첫 페이지로 이동
컴01기 블로그의 첫 페이지로 이동

컴01기

페이지 맨 위로 올라가기

[TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos

컴01기

[TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos

  • 2023.11.23 20:06
  • 📰논문 리뷰

안녕하세요 이번주에도 비디오 검색 관련 논문 읽기… 세번째 논문으로 PPT를 들고 왔습니다. 방법론 이름이 PPT 입니다. 해당 논문에서는 near-dupliceate video retrieval (NDVR) 과 near-dupliceate video localization (NDVL) 를 위해, 계층적인 filter-and-refine 프레임워크로 a spatiotemporal pattern-based approach 를 사용할 것을 제안했습니다. 이 당시 성능을 평가했을 때 기존의 접근 방식보다 좋은 결과를 달성했다고 합니다.

Introduction

우선 전체적인 프레임워크는 위의 그림과 같습니다. 이를 이용하면 fully NDVR, parital NDVR, 그리고 NDVL 의 결과까지 도출해낼 수 있습니다. 아래는 해당 프레임워크에 대한 순서대로의 설명입니다.

  1. 하나의 query video 와, 여러 개의 reference videos (database) 가 주어진다.
  2. video frames 의 low-level features 를 뽑는다.
  3. (2) 의 features 가 symbolized 된다.
  4. (3) 의 symbol sequences 를 이용하여, I-pattern 과 m-pattern 을 만든다.
  5. (4) 의 I-pattern (query + reference)를 이용하여, PI-tree 를 만든다.
    • Filter stage : non-near duplicate videos 를 거르기 위한 목적이다.
  6. (5)의 결과에 mPDP 를 확장한 방법을 적용한다.
    • Refine stage : re-rank 와 localize 하기 위한 목적이다.
  7. 최종적으로 NDVR + NDVL 결과를 얻는다.

Feature Extraction

  • 비디오에서 t개의 프레임 간격으로 keyframe 을 선택한다. (uniform sampling)
  • (이때, 더 정확한 추출을 위해, 추출 전에 preprocessing 으로 boreder removal 을 한다.)
  • 비교를 위해 keyframe 마다 3가지 종류의 feature 를 추출한다. (ordinal feature, SURF, HOOF)

Pattern Generation

  • K-means clsutering 을 사용하여, 비슷한 feature 의 keyframes 끼리 cluster 를 만들고 해당 cluster를 나타내는 symbol 을 정의한다. (symobl encoding.)
  • 비디오의 각 keyframe 마다 배정된 symbols (or candidate symbols) 을 합쳐서, video 마다 a sequence of symbols 를 만든다.
  • 단순 symbol sequence 에는 길이 2 짜리 window 를 sliding over 해서 I-pattern 을 만든다.
  • candidate symbol sequence 에는 길이 m 짜리 window 를 이용해서 m-Pattern 을 만든다.
  • 이때, reference video 와 query video 간의 symbol similarity 는 아래 공식을 이용하여 구할 수 있다.

 

PI-Tree

  • 생성된 pattern 을 기반으로 non-near-duplicate videos 를 걸러내기 위해, filter stage 에서 쓰이는 구조 입니다.

video c1 에 대한 i-pattern 중 첫번째 인덱스에 있는게 EA 라고 할 때, 위 그래프의 col : E, row : A 를 보면 (c1,1)이 들어가 있습니다. 모든 pattern, video 에 대해 이 단계들을 반복해서 PI-tree 를 구성합니다.

PI-Tree Search

같은 I-pattern 을 가진 video 의 수가 많을 수록, 해당 I-pattern 은 흔하다는 의미가 됩니다. 즉, 검색은 비디오들 간의 차이점을 중요시해야하니까, video retrieval 을 할 때 필요하지 않게 된다는 뜻입니다.

아래는 I-Pattern P 의 distinctivness 를 계산하는 식입니다.

  • RD : the number of Reference Database
  • PQ(P) : the number of videos in the queue prefixed by the I-Pattern P

이를 이용해서, 어떤 a query video 에서 I-Pattern {P1, P2, … Px} 가 주어졌을 때, 각 P 가 해당하는 queue pool 에 대해 distinctivness 를 구해서, 특정 queue 에 있는 temporal relation 과 consistency socre 를 아래와 같이 정의합니다.

 

이 이후에, queue pool 을 얻었기 때문에, reference video cj에 대한 near-duplicate score 를 아래와 같이 얻을 수 있게 됩니다.

mPDP

  • m-Pattern 기반 Dynamic Programming 을 뜻합니다.
  • m-pattern 을 dynamic programming 의 basic units 으로 사용합니다.
  • 어떤 reference video RV 의 u번째 m-pattern 을 r^u 라고 하고, 어떤 query video QV 의 v번째 m-pattern 을 q^v 라고 했을 때, 이 둘의 video similarity 는 아래와 같습니다.

이때, pattern similarity PS 는 두 가지 방법으로 구할 수 있습니다.

  1. DPS (Direct m-Pattern Similarity) : naive
    • 두 m-pattern 에서 같은 position 에 있는 symbols 간의 유사도를 계산합니다.

2. TPS (Time-shift m-Pattern Similarity) : enhanced version

  • time 이 shift 됐을 경우를 대비하여 optimal matching 을 고려하여 계산합니다.

NDVL and Re-Ranking

  • mPDP 이후에 얻게 된 tables 를 이용해서, video 가 near-duplicate 인지, 그리고 그렇다면 localize 를 해줍니다.
  • 계산한 similarity 가 클 수록 near-duplicate 일 확률 이 높습니다.
  • 또한 얻은 backtrakcing 의 대각선 특성을 이용해서, 서로 얼마나 연관되어있는지 알아내고, 이를 통해 NDVL 과 Re-ranking 을 진행합니다.

Experiments

  • five datasets : MUSCLE VCD, CC_WEB_VIDEO, CC_WEB_VIDEO+, UQ_VIDEO, TRECVID-CVCD
  • compared features : ORD (ordinal feature), SURF, HOOF
이 글은 (새창열림) 본 저작자 표시 규칙 하에 배포할 수 있습니다. 자세한 내용은 Creative Commons 라이선스를 확인하세요.
Creative Commons
본 저작자 표시

'📰논문 리뷰' 카테고리의 다른 글

[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval  (0) 2023.11.23
[WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning  (0) 2023.11.23
[CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding  (0) 2023.11.23
[ACMMM 2007] Practical Elimination of Near-Duplicates from Web Video Search  (0) 2023.11.23
[AAAI 2021] BSN++ : Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation  (0) 2023.11.23

댓글

컴01기힝입니다.

댓글을 사용할 수 없습니다.

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • [arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

    [arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

    2023.11.23
    Abstract Multi-modal 분야의 Video-Text Retrieval 을 위한 CLIP4Clip 이라는 end-to-end 모델을 제안합니다. 본 논문의 메인 아이디어는, 기존의 image-language pretraining 모델인 CLIP 을 video-language 분야로 knowledge transfer 한 것입니다. similarity calculator 를 세 가지 타입으로 디자인했고, 여러 실험을 통해 분석합니다. 추가로, 당시에 CLIP4Clip 모델은 여러 video-text retriveal datasets (MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo) 에서 SOTA 를 달성했었다고 합니다. (지금은 CLIP2TV, CaMoE 등의 모델이 …
  • [WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning

    [WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning

    2023.11.23
    비디오 검색 관련 논문 리뷰입니다! 오늘은 self-attention 기법을 사용하여 frame-level features 간의 시간 정보를 통합해서, 좀 더 긴 정보를 가진 video representation 을 학습해내는 framework, TCA 에 대해 알아볼 것입니다. 우선 비디오와 비디오를 비교하여 유사도를 예측하여 검색을 하는, Content-Based Video Retrieval 문제 중에는 여러 분야가 있습니다. Near-Duplicate Video Retrieval (NDVR) Fine-grained Incident Video Retrieval (FIVR) Event-based Video Retreival (EVR) NDVR 과는 비교했을 때 , FIVR 과 EVR 는 ‘사건’에 대한…
  • [CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding

    [CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding

    2023.11.23
    안녕하세요 비디오 검색 관련 논문 읽기… 두번째 논문으로 ActivityNet을 들고 왔습니다! 제목 그대로, ActivityNet 은 인간의 행동의 이해를 위한 대규모 비디오 벤치마크 입니다. 벤치마크라는 말을 자주 들어봤지만 의미를 정확히는 몰라 찾아보니 ‘기준이라고 받아들여지는 것과 비교하여 어떤 것의 품질을 측정하는 작업’ 이라고 하네요. 컴퓨터비전 쪽에서는 벤치마크는 Classification 등의 task 에 대해, 어떤 모델의 성능을 측정하는 기준을 정해주는 것이라고 생각하면 될 것 같습니다. 리뷰 시작하도록 하겠습니다. 비디오 관련 데이터가 점점 늘어남에도 불구하고, 비디오에 나오는 human activity 를 자동적으로 이해하는 것에는 어려웠습니다. 그 당시의 action 관련 컴퓨터 …
  • [ACMMM 2007] Practical Elimination of Near-Duplicates from Web Video Search

    [ACMMM 2007] Practical Elimination of Near-Duplicates from Web Video Search

    2023.11.23
    겨울방학 동안 매주 Video Retrieval 관련 논문 리뷰 하기…! 첫번째 게시글 입니다. 해당 분야에서 자주 보이는 Visual-centeric 한 dataset 인, CC_WEB_VIDEO 에 대한 논문을 리뷰하겠습니다. Introduction 현재의 웹 비디오 검색은 text keywords 와 유저가 제공한 tags 에 의존합니다. 따라서 검색 결과로 많은 duplicate / near-duplicate videos 가 나오게 됩니다. 본 논문에서는 global signatrues 와 local feature based pairwise comparison 을 사용해서, near-duplicate web videos 를 detect 하는 계층적인 접근 방식을 제안합니다. near-duplica…
다른 글 더 둘러보기

정보

컴01기 블로그의 첫 페이지로 이동

컴01기

  • 컴01기의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (87)
    • 📰논문 리뷰 (16)
    • 🍒회고록 (4)
    • 🖤네이버 ai tech (0)
    • ✨글쓰는힝 (1)
    • 🔥취준일기 (2)
    • 🎲유니티 (2)
    • 🔨삽질 (10)
    • 📚 서적 리뷰 (4)
    • 🐹알고리즘 (4)
    • 😎정리하는 카테고리 (4)
    • 📝CS 공부 (6)
      • 운영체제 (1)
      • 네트워크 (4)
      • 리팩토링 (1)
    • etc (22)
      • 혼공단 (7)
      • Spring (7)
      • JS (1)
      • OpenCV (2)
      • Unity (5)

인기 글

태그

  • 혼공머신
  • unity
  • 혼공SQL
  • 혼공단
  • 회고록
  • 백준
  • github
  • 혼공학습단

나의 외부 링크

  • Github
  • Youtube

정보

힝님의 컴01기

컴01기

힝님

방문자

  • 전체 방문자
  • 오늘
  • 어제

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / Kakao. © 힝님. Designed by Fraccino.

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.