[EAIS 2020] Emotions Understanding Model from Spoken Language using Deep Neural Networks and Mel-Frequency Cepstral Coefficients
2023.11.23
음성으로부터 사람의 감정을 인식하는 문제, Speech Emotion Recognition (SER) 관련 논문입니다. 본 논문의 핵심 아이디어는 CNN 기반 모델을 이용하여 SER 문제를 해결하는 것입니다. 해당 모델은 음성 데이터를 이용하여 8가지 감정을 분류하도록 학습되었고, 최종적으로 0.91의 F1 score 를 얻었습니다. 제안된 모델의 이름은 CNN-MFCC 입니다. MFCC 는 Mel-frequency cepstral coefficients 라는 뜻인데, 이를 단 하나의 입력 feature 로 사용하는 CNN 기반 모델이라 이름이 저렇습니다. 일단 MFCC 가 무엇인지부터 짚고 넘어가겠습니다. MFCC 해당 논문에서 사용하는 RAVDESS 데이터셋 같은 경우, 오디오 파일이 .wav 로 주..
[arXiv 2022] Cross Modal Retrieval with Querybank Normalisation
2023.11.23
Text-to-Video Retrieval 을 위한 모델의 성능을 ‘추가적인 학습 없이’ 향상 시켜줄 수 있는 방법이라 읽게 되었습니다. 이전에 리뷰했던 TVR 방법론인 DRL 같은 경우도, 해당 프레임워크에 QB-NORM 을 적용해서 당시 sota 를 달성했었습니다. TVR 뿐만 아니라, 다양한 cross modal retrieval 에 대해 널리 쓰일 수 있기도 합니다. 리뷰 시작하도록 하겠습니다. Cross modal Retrieval 우선, 논문의 제목에도 나와있는 Cross modal retrieval 이 무엇인지 설명하고 가겠습니다. Modal : modality 의 약어. 데이터의 ‘양식’을 의미합니다. 예시 : text, image, audio, video Retrieval : query ..
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval
2023.11.23
현재 Text-to-video retrieval 에서 SOTA 를 달성하고 있는 논문입니다. 중국의 유명한 인터넷 플랫폼 서비스 기업인 ‘alibaba’에 속한 인공지능 연구기관 ‘DAMO academy’에서 나온 논문이에요. 리뷰 시작하도록 하겠습니다! Abstract 우선, Text Video Retrieval (이하 TVR)의 performance 에 영향을 끼치는 가장 중요한 요소는 Cross-modality interaction, 즉, 서로 다른 모달리티 간의 상호 관계를 잘 나타내는 것입니다. 이 interaction 을 계산할 때는 여러 가지 구성 요소들이 사용되는데, 그럼에도 불구하고 이 요소들이 TVR 의 성능에 어떻게, 얼마나 영향을 미치는 지에 대한 조사는 거의 진행되지 않았다고 합니..
[ECCV 2018] A Joint Sequence Fusion Model for Video Question Answering and Retrieval
2023.11.23
우선, 요즘 MSR-VTT 데이터셋을 이용하는 원복 실험을 하는 중인데, text-clip retrieval 의 경우 해당 논문에서 사용한 방법으로 evaluate 를 하길래 읽게 되었습니다. (이 내용이 핵심은 아닙니다!) 본 논문은 서로 다른 모달리티의 sequence 데이터 간의 Semantic Similarity 를 계산할 수 있는, JSFusion (Joint Sequence Fusion) 이라는 이름의 방법론을 제안합니다. 결과적으로 해당 방법론을 사용했을 때, Multimodal Retrieval 에 대해서는 sota, Video QA 에 대해서는 sota에 대적할만한 성능을 냈습니다. Video Captioning, Video Question and Answerning, Video retr..
[ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips
2023.11.23
Text-Video 데이터셋으로 많이 쓰이는 HowTo100M 에 대한 리뷰입니다. 본 논문의 주요 컨트리뷰션은 아래의 세 가지 입니다. 기존 데이터셋들보다 Large-scale 인, Text-Video 데이터셋 HowTo100M 제안 HowTo100M을 이용하여 학습한 text-video embedding 을 이용했을 때, instructional video 데이터셋(ex. YouCook, CrossTalk)을 이용하는 text-to-video retrieval 과 action localization 에서 sota 달성 HowTo100M을 이용하여 학습한 text-video embedding 을 이용하고, 다른 도메인의 데이터셋(ex. 일반적인 유튜브 비디오 데이터셋인 MSR-VTT, 영화 데이터셋인 ..
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision
2023.11.23
image가 주어졌을 때, 그에 대한 text 를 prdict 하는 것을 목적으로 pretrained 된 모델, CLIP에 대한 리뷰입니다. 우선 CLIP은 Contrastive Language-Image Pretraining 의 약자인데요. 이 리뷰를 읽게 되신다면 Contrastive 가 어떤 의미인지, 왜 Language-Image 데이터를 쓰는지, 그리고 해당 모델이 Pretraining 을 통해 어떤 이점들을 얻었는지 등을 살펴보시면 좋을 것 같습니다. 우선 기존 SOTA 컴퓨터비전 시스템들은 미리 정의 해놓은 object categories를 predict 하는 방식으로 학습되어 왔습니다. 이에 대한 예시로는, CIFAR-10 데이터셋을 활용하여 image classification 을 하는 ..
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
2023.11.23
Abstract Multi-modal 분야의 Video-Text Retrieval 을 위한 CLIP4Clip 이라는 end-to-end 모델을 제안합니다. 본 논문의 메인 아이디어는, 기존의 image-language pretraining 모델인 CLIP 을 video-language 분야로 knowledge transfer 한 것입니다. similarity calculator 를 세 가지 타입으로 디자인했고, 여러 실험을 통해 분석합니다. 추가로, 당시에 CLIP4Clip 모델은 여러 video-text retriveal datasets (MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo) 에서 SOTA 를 달성했었다고 합니다. (지금은 CLIP2TV, CaMoE 등의 모델이 ..
[WACV 2021] Temporal Context Aggregation for Video Retrieval with Contrastive Learning
2023.11.23
비디오 검색 관련 논문 리뷰입니다! 오늘은 self-attention 기법을 사용하여 frame-level features 간의 시간 정보를 통합해서, 좀 더 긴 정보를 가진 video representation 을 학습해내는 framework, TCA 에 대해 알아볼 것입니다. 우선 비디오와 비디오를 비교하여 유사도를 예측하여 검색을 하는, Content-Based Video Retrieval 문제 중에는 여러 분야가 있습니다. Near-Duplicate Video Retrieval (NDVR) Fine-grained Incident Video Retrieval (FIVR) Event-based Video Retreival (EVR) NDVR 과는 비교했을 때 , FIVR 과 EVR 는 ‘사건’에 대한..
[TMM 2015] Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos
2023.11.23
안녕하세요 이번주에도 비디오 검색 관련 논문 읽기… 세번째 논문으로 PPT를 들고 왔습니다. 방법론 이름이 PPT 입니다. 해당 논문에서는 near-dupliceate video retrieval (NDVR) 과 near-dupliceate video localization (NDVL) 를 위해, 계층적인 filter-and-refine 프레임워크로 a spatiotemporal pattern-based approach 를 사용할 것을 제안했습니다. 이 당시 성능을 평가했을 때 기존의 접근 방식보다 좋은 결과를 달성했다고 합니다. Introduction 우선 전체적인 프레임워크는 위의 그림과 같습니다. 이를 이용하면 fully NDVR, parital NDVR, 그리고 NDVL 의 결과까지 도출해낼 수 ..
[CVPR 2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding
2023.11.23
안녕하세요 비디오 검색 관련 논문 읽기… 두번째 논문으로 ActivityNet을 들고 왔습니다! 제목 그대로, ActivityNet 은 인간의 행동의 이해를 위한 대규모 비디오 벤치마크 입니다. 벤치마크라는 말을 자주 들어봤지만 의미를 정확히는 몰라 찾아보니 ‘기준이라고 받아들여지는 것과 비교하여 어떤 것의 품질을 측정하는 작업’ 이라고 하네요. 컴퓨터비전 쪽에서는 벤치마크는 Classification 등의 task 에 대해, 어떤 모델의 성능을 측정하는 기준을 정해주는 것이라고 생각하면 될 것 같습니다. 리뷰 시작하도록 하겠습니다. 비디오 관련 데이터가 점점 늘어남에도 불구하고, 비디오에 나오는 human activity 를 자동적으로 이해하는 것에는 어려웠습니다. 그 당시의 action 관련 컴퓨터 ..
[ACMMM 2007] Practical Elimination of Near-Duplicates from Web Video Search
2023.11.23
겨울방학 동안 매주 Video Retrieval 관련 논문 리뷰 하기…! 첫번째 게시글 입니다. 해당 분야에서 자주 보이는 Visual-centeric 한 dataset 인, CC_WEB_VIDEO 에 대한 논문을 리뷰하겠습니다. Introduction 현재의 웹 비디오 검색은 text keywords 와 유저가 제공한 tags 에 의존합니다. 따라서 검색 결과로 많은 duplicate / near-duplicate videos 가 나오게 됩니다. 본 논문에서는 global signatrues 와 local feature based pairwise comparison 을 사용해서, near-duplicate web videos 를 detect 하는 계층적인 접근 방식을 제안합니다. near-duplica..
[AAAI 2021] BSN++ : Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation
2023.11.23
바로 이전에, Temporal action proposal 생성하는 BSN (Boundary Sensitive Network)에 대해 리뷰 했었습니다. 이번에 리뷰할 BSN ++ 은, BSN 의 상위 버전인 네트워크라고 생각하면 될 것 같습니다. (저자도 겹칩니다…!) 그렇기 때문에, BSN 에서 있었던 단점을 극복하는 방식으로 3가지의 기여를 했습니다. 기존의 BSN 은 flexible 한 durations 와 reliable 한 confidence scores 를 가진 proposals 를 생성한다는 장점이 있었습니다. 그러나, 3가지 단점이 존재합니다. boundary 를 예측할 때, 해당 boudnary 근처의 local deatils 만 사용합니다. 즉, 전체적인 video sequence 에 ..