이 영역을 누르면 첫 페이지로 이동
컴01기 블로그의 첫 페이지로 이동

컴01기

페이지 맨 위로 올라가기

컴01기

힝입니다.

[ECCV 2018] A Joint Sequence Fusion Model for Video Question Answering and Retrieval

  • 2023.11.23 20:11
  • 📰논문 리뷰

우선, 요즘 MSR-VTT 데이터셋을 이용하는 원복 실험을 하는 중인데, text-clip retrieval 의 경우 해당 논문에서 사용한 방법으로 evaluate 를 하길래 읽게 되었습니다. (이 내용이 핵심은 아닙니다!)

 

본 논문은 서로 다른 모달리티의 sequence 데이터 간의 Semantic Similarity 를 계산할 수 있는, JSFusion (Joint Sequence Fusion) 이라는 이름의 방법론을 제안합니다. 결과적으로 해당 방법론을 사용했을 때, Multimodal Retrieval 에 대해서는 sota, Video QA 에 대해서는 sota에 대적할만한 성능을 냈습니다.

 

Video Captioning, Video Question and Answerning, Video retrieval for a language query 등, Video-language 데이터를 사용하는 task를 해결하기 위해서는 텍스트(word sequences)와 비디오(frame sequences) 간의 ‘a hidden joint representation’ 을 학습하는 것이 중요합니다. 이렇게 학습을 통해 각 모달리티로부터 representation 을 잘 얻어서, 이 를 이용하여 둘 간의 Semantic 한 similarity 를 잘 계산하는 것이 해당 task 에 핵심이니까요.

 

이 학습을 위해 이전 연구에서 사용한 방법들을 살짝 짚고 넘어가겠습니다.

 

Video classification : 모델을 학습하여 비디오로부터 얻은 representation 을 이용하여 특정 class 로 분류할 수 있도록 하는 방식입니다. 그러나 이 경우에는 class 의 수가 정해져 있었고, ‘분류’를 위해 학습을 진행하였기에 보다 video-language 의 복잡한 task 를 위한 representation 을 학습하는 데는 한계가 있었습니다.

 

Multimodal semantic embedding : Deep representation learning 이 발전함에 따라, 서로 다른 모달의 데이터를 같은 차원의 공간에 embedding 하는 방법론이 등장하였습니다. 그러나 기존 방법론들은 visual 정보와 language 정보를 각각 하나의 vector 로 embed 시켰기 때문에, ‘video’ 와 ‘natural sentence’ 를 이용해야하는 task 에서는 한계가 있었습니다. 서로 다른 ‘sequence’ 모달리티로부터 각각 vector 하나씩만을 가져왔으니까, ‘Hierarchical matching(계층적 매칭)’, 즉, sequence 데이터의 부분 부분들 간의 다양한 관계를 알아내어 매칭시키는 것에는 한계가 있었던 것이죠.

 

이후 이러한 Hierearchical structure learning 을 위한 방법론이 등장하기도 했었지만, Groundtruth parse tree 나 segmentation label 이 필요한 방법론이라는 한계가 있었다고 합니다.

JSFusion (Joint Sequence Fusion) Model

본 논문에서 제안하는 JSFusion 모델은, attention mechanism 을 사용하여 bottom-up recursive matches 를 학습해서, multimodal sequence data 의 pairs 간의 semantic similarity 를 측정할 수 있도록 합니다. 이때 모델의 핵심 구성요소로는 크게 두 가지, Joint Semantic Tensor(JST) 과 Convolution Hierarchical Decoder(CHD) 가 있습니다. 먼저 전처리를 어떻게 하는 지 살펴보고, 방금 언급한 구성요소에 대해 설명해보도록 하겠습니다.

Preprocessing

Sentence representation

 

Video representation

 

Joint Semantic Tensor (JST)

앞서 preprocessing 과정을 통해 얻은 Sentence-Video representation 을 이용하여, JST 라는 3D tensor 를 만듭니다.

 

Sequence Encoder : Sentence-Video representation → encoder representation

3D vector에 Self-gating mechanism 을 적용시켜서, 모든 pairwise embedding 간의 fine-grained 한 match 를 찾을 수 있도록 합니다.

fully-connceted (dense) layer (Dk) , Convolution layer (Convk), 그리고 attention weights a, represenation r 을 이용해서, 앞서 얻은 sequential 한 feature 간의 joint embedding 을 나타내는 JST 를 얻습니다.

 

 

이때 (.) 는 hadamard product 이고, sigma 는 sigmoid function 입니다.

그리고 학습 과정을 통해, w 라는 parameter 를 학습합니다.

encoder 의 output 이 각 frame 주변, 즉, 이웃비디오의 feature 를 나타내기 때문에, 어텐션 a 는 가능한 pairs 중 어떤 것에 더 weight 를 줘야할 지 학습하게 됩니다.

 

 

Convolutional Hierarchical Decoder (CHD)

CHD는, 3d tensor인 jst 에 convolution 을 하여 positively aligned pairs는 activate 하고, negative 는 deactivate 하는 decoder 입니다. 4개의 dense layer 에 video-sentence representation 을 input 으로 넣어, similarity matching score 를 계산합니다.

Evaluate

  • LSMDC 데이터셋 이용해서 retrieval 이랑 VQA tasks 에 대해서 측정했고, sota 를 달성했습니다.

 

  • MSR-VTT 데이터셋을 이용해서 multiple-choice 랑 movie retrieval 에 대해서도 측정했고, sota에 대적할 만한 성능을 달성했습니다.

저작자표시 (새창열림)

'📰논문 리뷰' 카테고리의 다른 글

[arXiv 2022] Cross Modal Retrieval with Querybank Normalisation  (0) 2023.11.23
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval  (0) 2023.11.23
[ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips  (0) 2023.11.23
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision  (0) 2023.11.23
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval  (0) 2023.11.23

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • [arXiv 2022] Cross Modal Retrieval with Querybank Normalisation

    [arXiv 2022] Cross Modal Retrieval with Querybank Normalisation

    2023.11.23
  • [arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

    [arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

    2023.11.23
  • [ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips

    [ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips

    2023.11.23
  • [PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision

    [PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision

    2023.11.23
다른 글 더 둘러보기

정보

컴01기 블로그의 첫 페이지로 이동

컴01기

  • 컴01기의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (87)
    • 📰논문 리뷰 (16)
    • 🍒회고록 (4)
    • 🖤네이버 ai tech (0)
    • ✨글쓰는힝 (1)
    • 🔥취준일기 (2)
    • 🎲유니티 (2)
    • 🔨삽질 (10)
    • 📚 서적 리뷰 (4)
    • 🐹알고리즘 (4)
    • 😎정리하는 카테고리 (4)
    • 📝CS 공부 (6)
      • 운영체제 (1)
      • 네트워크 (4)
      • 리팩토링 (1)
    • etc (22)
      • 혼공단 (7)
      • Spring (7)
      • JS (1)
      • OpenCV (2)
      • Unity (5)

최근 글

인기 글

댓글

태그

  • unity
  • 혼공머신
  • 회고록
  • github
  • 혼공단
  • 혼공SQL
  • 백준
  • 혼공학습단

나의 외부 링크

  • Github
  • Youtube

정보

힝님의 컴01기

컴01기

힝님

방문자

  • 전체 방문자
  • 오늘
  • 어제

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / Kakao. © 힝님. Designed by Fraccino.

티스토리툴바