Temporal action proposal 생성을 하기 위해 제안된 방법인 BSN (Boundary-Sensitive Network)에 대해 소개하는 논문입니다. 간단히 말하면 액션의 경계에 좀 더 민감하게 반응하는 네트워크예요.

우선 Temporal action proposal이 필요한 이유부터 말하자면, 대부분의 Real-world 영상은 duration 이 길고, 액션이랑 상관 없는 콘텐츠 비중이 높은데요, 이로부터 action content 가 풍부한 부분을 알아내기 위함입니다. 즉, 비디오에서 어떤 행동이 시간적으로 어느 부분에 위치하는지 찾아서 제안(proposal)하는 것입니다.

이 문제는 아래 두 가지 방법을 필요로 합니다.

정확한 시간 경계 proposals 을 생성하는 것
상대적으로 적은 proposals 을 사용해서, recall 과 overlap 이 높은, truth action instances 를 커버할 수 있는 proposals 를 retrieve 하는 것

해당 논문에서는 이런 것들을 해결하기 위해서, 효과적인 proposal generation method 인 “BSN (Boundary-Sensitive Network)” 를 소개합니다. BSN은 “local to global” 방식을 채택했다고 합니다.

Locally

먼저 temporal boundary 일 확률이 높은 곳들을 찾고, 그 이후에 이걸 직접 결합한 것을 proposals 이라고 합니다.

Globally

그 후, Boundary-Sensitive Proposal feature 을 사용해서, 해당 proposal 의 region 안에 action 을 포함하고 있는지 아닌지에 대한 confidence 를 평가함으로써 proposals 을 retrieve 합니다.

이렇게 두 가지 방식을 거쳐서, action 을 포함하고 있는 temporal action proposal 을 만드는 것이죠.

이 논문에서는 두 개의 challenging dataset (AcitivityNet-1.3, THUMOS14) 에 대해 실험을 수행했습니다. 둘 다 에서 BSN 이 다른 SOTA temporal action proposal generation methods 보다 outperform 했음을 실험을 통해 알 수 있었다고 합니다.

마지막으로, existing action classifiers 를 BSN과 합치면 sota action detection performance 를 향상시킬 수 있을 것이라고 further experiments 설명하는 것으로 끝이 납니다.

abstract 에 나온 간략한 순서는 이렇습니다.

Introduction

서두는 다른 논문들과 비슷합니다. 카메라와 인터넷이 급속도로 잘 성장했고, 비디오가 엄청 늘어났고… 아무튼 그래서 자동적으로 비디오 컨텐츠를 분석해주는 방법에 대한 수요가 늘고 있는 상황입니다. 이 비디오 분석 분야에서 메인이 action recognition 인데요, 이건 trimmed video clips 이 어떤 action instance 를 포함하고 있는지 분류하는 것을 목적으로 하는 문제입니다. 실제 영상들은 보통 길고, untrimmed 이고, 여러 개의 action 인스턴스를 포함하고, 관련 없는 컨텐츠들도 포함되어 있습니다. 이런 이유들로 인해 temporal action detection 이 어려워집니다.

Spatial domain 의 Object detection 처럼, temporal action 또한 2개의 stage 로 나눌 수 있습니다. ‘Proposal’ 과 ‘Classification’ 으로요. Proposal stage 는 action 인스턴스를 포함하고 있는 temporal video regions 를 생성하는 것을 목적으로 하고, Classification stage 는 후보 proposals 의 class 를 분류하는 것을 목적으로 합니다.

성능이 좋은 proposals 이라면 아래의 두 가지 key properties 를 갖춰야 한다고 합니다.

높은 recall 과 overlap 으로 truth action regions 를 커버할 수 있어야 한다.
상대적으로 적은 수의 proposals 를 사용해서 1.을 달성해야 한다. (computation cost 를 줄이기 위해서!)

이렇게 좋은 성능을 달성하기 위해서, proposal 생성 메소드는 flexible 한 temporal durations 과 정확한 temporal boundaries 를 가진 proposal 을 생성하고, 그리고 그 중에 믿을만한 confidence scores 를 가진 proposal 을 retrieve 합니다. 이때, confidence score 는 해당 proposal 이 action 인스턴스를 포함하고 있을 확률을 나타내는 값이라고 합니다.

기존에 사용하던 proposal generation 메소드에는 drawback 이 있기에 이 논문에서는 해당 이슈를 해결하고 보다 퀄리티 높은 proposal 을 만들기 위해 BSN (Boundary-Sensitive Network)를 제안합니다. Locally 하게는 높은 확률의 boundaries 를 합쳐서 proposal 로 묶는 것이고, Globally 하게는 proposal-level feature 를 사용하여 candidate proposals 를 retrieve 하는 것이죠.

자세한 설명을 통해 한 번 이해해봅시다.

BSN 이 비디오에 있는 각 temporal location 의 probabilities 를 평가합니다. starting, ending, actioness 일 확률 sequence 를 구하기 위해, 각 temporal location이 실내인지 외부인지, GT action 인스턴스의 boundary 에 있는지 아닌지에 평가하는 겁니다.
높은 starting probabilities 와 높은 ending probabilities 를 가진 temporal locations 를 직접적으로 합침으로써 proposals 를 생성합니다. 이런 bottom-up fashion 을 사용해서, BSN 은 flexible한 duration (~~이게 왜 flexible 하다는 것인지는 아직 잘 모르겠는…!~~ 아 길이가 고정적인 게 아니라 flexible 하다고 표현한 듯 합니다.)과 정확한 boundary 를 가진 proposals 를 만들 수 있게 돼요.
proposal 주변의 actioness scores로 구성된 features 를 사용해서, BSN 은 proposals 를 retrieve 합니다. 이때, proposal 이 action 을 포함하고 있는지 아닌지에 대한 confidence 를 평가함으로써 retreive 하는 것입니다. 이런 proposal-level features 는 더 나은 evaluation 을 위한 global information 을 제공한다고 합니다.

Our Approach

Problem Definition

Video Feature Encoding

input video 에 대한 proposals 를 생성하려면, 우선 video 의 feature 부터 뽑아서 비디오의 비주얼 컨텐츠를 encode 해야 합니다. 우리의 프레임워크에서는 two-stream network 를 visual encoder 로 사용했는데요, 이 architecture 는 action recognition task 에서 좋은 성능을 보이고, temporal action detection 과 proposal generation tasks 에서도 널리 사용되고 있다고 합니다.

Two-stream network 는 2개의 branch 를 포함합니다. Spatial network 는 appearance feature 를 capture 하기 위해 single RGB frame 에 대해 작동을 하고, Temporal network 는 motion information 을 capture 하기 위해 stacked optical flow field 에 대해 작동을 합니다. (여기서 optical flow란, ‘광학 흐름’ 이라는 말인데, 영상 내에 있는 물체의 움직임 패턴을 뜻합니다.)

출처 : https://arxiv.org/pdf/1406.2199.pdf

다른 논문에서 two-stream network 에 대해 찾아본 내용입니다.

Video 는 Spatial components 와 Temporal components 로 나눠질 수 있다고 합니다. Spatial part 는 개별적인 frame 의 모습을 하고 있고, video 에 묘사된 장면과 물체에 대한 정보를 담고 있습니다. 반면 Temporal part 는 여러 frame 동안 걸쳐져 있는 motion 의 모습을 하고 있고, 관찰자 (camera)와 물체의 움직임에 대한 정보를 담고 있습니다.

따라서 이에 걸맞게 video recognition architecture 을 2개의 stream 으로 고안해낸 것이 two-stream network 입니다!

Boundary-Sensitive Network

precise 한 temporal boundaries 와 reliable 한 confidence scores 를 가진 high proposal quality 를 얻기 위해, “local to global” 이라는 방법을 사용하여 proposals 를 만들었습니다. BSN 에서, (1) locally 하게 candidate boundary locations 를 만들고, (2) 이 locations 를 proposals 로 combine 해서, (3) 각 proposal 를 proposal-level feature 에 대해 confidence score 를 evaluate 합니다. (1) ~ (3) 순서대로 모듈 순서대로 보면 되겠습니다.

Network architecture :

Training

temporal evaluation module : 비디오 features 로부터 local boundary 와 actionness probabilities 를 동시에 학습
Proposal generation module : 1로부터 나온 probablities sequence 를 기반으로 proposals 와 BSP features 를 생성
proposal evaluation module : proposals 의 confidence score 를 학습

(디테일은 생략하겠습니다! 논문을 참고해주세요)

Prediction and Post-processing

Experiments

이 결과를 보면, proposals 의 수가 적을 수록 성능 향상이 많이 됐습니다. 이는 상대적으로 적은 수의 proposals 를 사용하는 게 좋다는, 앞서 언급한 조건과 적합합니다.

또한 여러 테이블들을 보면 Activitiy-net / AR@AN, AUC 으로 했을 때 proposal generation methods 중에 sota 이고, THUMOS14 , AR@AN 으로 했을 때 대체적으로 sota 입니다.

그 외에도 Generalization evaluation 을 위해 seen/unseen subject 에 대해서도 했는데, 성능이 크게 변화하지 않았습니다. 이는 BSN 이 unseen actions 에서도 잘 한다, generalizability 를 갖고 있음을 알 수 있었습니다.

요약

temporal action proposal generation 하는 Boundary-Sensitive Network (BSN)
높은 boundary probabilities 를 가진 locations 를 합치는 방식으로 인해
flexible 한 duration 과 precise 한 boundaries 를 가진 proposals 를 만들 수 있다!

논문 링크

BSN: Boundary Sensitive Network for Temporal Action Proposal Generation

저작자표시 (새창열림)

'📰논문 리뷰' 카테고리의 다른 글

[ACMMM 2007] Practical Elimination of Near-Duplicates from Web Video Search (0)	2023.11.23
[AAAI 2021] BSN++ : Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation (0)	2023.11.23
ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning (0)	2023.11.23
[ICCV 2015] Learning Spatiotemporal Features with 3D Convolutional Networks (0)	2023.11.23
[arXiv 2021] Multimodal End-to-End Sparse Model for Emotion Recognition (0)	2023.11.23

BSN : Boundary Sensitive Network for Temporal Action Proposal Generation