우선, 요즘 MSR-VTT 데이터셋을 이용하는 원복 실험을 하는 중인데, text-clip retrieval 의 경우 해당 논문에서 사용한 방법으로 evaluate 를 하길래 읽게 되었습니다. (이 내용이 핵심은 아닙니다!)

본 논문은 서로 다른 모달리티의 sequence 데이터 간의 Semantic Similarity 를 계산할 수 있는, JSFusion (Joint Sequence Fusion) 이라는 이름의 방법론을 제안합니다. 결과적으로 해당 방법론을 사용했을 때, Multimodal Retrieval 에 대해서는 sota, Video QA 에 대해서는 sota에 대적할만한 성능을 냈습니다.

Video Captioning, Video Question and Answerning, Video retrieval for a language query 등, Video-language 데이터를 사용하는 task를 해결하기 위해서는 텍스트(word sequences)와 비디오(frame sequences) 간의 ‘a hidden joint representation’ 을 학습하는 것이 중요합니다. 이렇게 학습을 통해 각 모달리티로부터 representation 을 잘 얻어서, 이 를 이용하여 둘 간의 Semantic 한 similarity 를 잘 계산하는 것이 해당 task 에 핵심이니까요.

이 학습을 위해 이전 연구에서 사용한 방법들을 살짝 짚고 넘어가겠습니다.

Video classification : 모델을 학습하여 비디오로부터 얻은 representation 을 이용하여 특정 class 로 분류할 수 있도록 하는 방식입니다. 그러나 이 경우에는 class 의 수가 정해져 있었고, ‘분류’를 위해 학습을 진행하였기에 보다 video-language 의 복잡한 task 를 위한 representation 을 학습하는 데는 한계가 있었습니다.

Multimodal semantic embedding : Deep representation learning 이 발전함에 따라, 서로 다른 모달의 데이터를 같은 차원의 공간에 embedding 하는 방법론이 등장하였습니다. 그러나 기존 방법론들은 visual 정보와 language 정보를 각각 하나의 vector 로 embed 시켰기 때문에, ‘video’ 와 ‘natural sentence’ 를 이용해야하는 task 에서는 한계가 있었습니다. 서로 다른 ‘sequence’ 모달리티로부터 각각 vector 하나씩만을 가져왔으니까, ‘Hierarchical matching(계층적 매칭)’, 즉, sequence 데이터의 부분 부분들 간의 다양한 관계를 알아내어 매칭시키는 것에는 한계가 있었던 것이죠.

이후 이러한 Hierearchical structure learning 을 위한 방법론이 등장하기도 했었지만, Groundtruth parse tree 나 segmentation label 이 필요한 방법론이라는 한계가 있었다고 합니다.

JSFusion (Joint Sequence Fusion) Model

본 논문에서 제안하는 JSFusion 모델은, attention mechanism 을 사용하여 bottom-up recursive matches 를 학습해서, multimodal sequence data 의 pairs 간의 semantic similarity 를 측정할 수 있도록 합니다. 이때 모델의 핵심 구성요소로는 크게 두 가지, Joint Semantic Tensor(JST) 과 Convolution Hierarchical Decoder(CHD) 가 있습니다. 먼저 전처리를 어떻게 하는 지 살펴보고, 방금 언급한 구성요소에 대해 설명해보도록 하겠습니다.

Preprocessing

Sentence representation

Video representation

Joint Semantic Tensor (JST)

앞서 preprocessing 과정을 통해 얻은 Sentence-Video representation 을 이용하여, JST 라는 3D tensor 를 만듭니다.

Sequence Encoder : Sentence-Video representation → encoder representation

3D vector에 Self-gating mechanism 을 적용시켜서, 모든 pairwise embedding 간의 fine-grained 한 match 를 찾을 수 있도록 합니다.

fully-connceted (dense) layer (Dk) , Convolution layer (Convk), 그리고 attention weights a, represenation r 을 이용해서, 앞서 얻은 sequential 한 feature 간의 joint embedding 을 나타내는 JST 를 얻습니다.

이때 (.) 는 hadamard product 이고, sigma 는 sigmoid function 입니다.

그리고 학습 과정을 통해, w 라는 parameter 를 학습합니다.

encoder 의 output 이 각 frame 주변, 즉, 이웃비디오의 feature 를 나타내기 때문에, 어텐션 a 는 가능한 pairs 중 어떤 것에 더 weight 를 줘야할 지 학습하게 됩니다.

Convolutional Hierarchical Decoder (CHD)

CHD는, 3d tensor인 jst 에 convolution 을 하여 positively aligned pairs는 activate 하고, negative 는 deactivate 하는 decoder 입니다. 4개의 dense layer 에 video-sentence representation 을 input 으로 넣어, similarity matching score 를 계산합니다.

Evaluate

LSMDC 데이터셋 이용해서 retrieval 이랑 VQA tasks 에 대해서 측정했고, sota 를 달성했습니다.

MSR-VTT 데이터셋을 이용해서 multiple-choice 랑 movie retrieval 에 대해서도 측정했고, sota에 대적할 만한 성능을 달성했습니다.

저작자표시 (새창열림)

'📰논문 리뷰' 카테고리의 다른 글

[arXiv 2022] Cross Modal Retrieval with Querybank Normalisation (0)	2023.11.23
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval (0)	2023.11.23
[ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips (0)	2023.11.23
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision (0)	2023.11.23
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval (0)	2023.11.23

[ECCV 2018] A Joint Sequence Fusion Model for Video Question Answering and Retrieval