이 영역을 누르면 첫 페이지로 이동
컴01기 블로그의 첫 페이지로 이동

컴01기

페이지 맨 위로 올라가기

컴01기

힝입니다.

📰논문 리뷰

  • 컴01기
BSN : Boundary Sensitive Network for Temporal Action Proposal Generation

BSN : Boundary Sensitive Network for Temporal Action Proposal Generation

2023.11.23
Temporal action proposal 생성을 하기 위해 제안된 방법인 BSN (Boundary-Sensitive Network)에 대해 소개하는 논문입니다. 간단히 말하면 액션의 경계에 좀 더 민감하게 반응하는 네트워크예요. 우선 Temporal action proposal이 필요한 이유부터 말하자면, 대부분의 Real-world 영상은 duration 이 길고, 액션이랑 상관 없는 콘텐츠 비중이 높은데요, 이로부터 action content 가 풍부한 부분을 알아내기 위함입니다. 즉, 비디오에서 어떤 행동이 시간적으로 어느 부분에 위치하는지 찾아서 제안(proposal)하는 것입니다. 이 문제는 아래 두 가지 방법을 필요로 합니다. 정확한 시간 경계 proposals 을 생성하는 것 상대적으로 ..
ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning

2023.11.23
안녕하세요! 두 번째 리뷰입니다. 이 논문은 ViSiL (Video Similarity Learning architecture) 을 소개하는 논문입니다. 일반적으로 비디오 간의 시공간적 관계 (Spatio-Temporal relations)는 이전의 Video Retrieval 접근 방식에서 손실됐었는데, ViSiL 을 사용하면 정제된 frame-to-frame 매트릭스에서 video-to-video similarity 를 계산할 수 있어 intra-frame / inter-frame relations, 즉 시공간적 관계를 고려할 수 있다고 하네요! 그럼 리뷰 시작하겠습니다! Introduction 인터넷을 통해 비디오를 공유하는 서비스가 인기가 있어짐에 따라, 웹 상에 있는 비디오 컨텐츠의 양이 전례 ..
[ICCV 2015] Learning Spatiotemporal Features with 3D Convolutional Networks

[ICCV 2015] Learning Spatiotemporal Features with 3D Convolutional Networks

2023.11.23
안녕하세요! 첫 논문리뷰입니다. 이 논문은 3D ConvNet 을 이용하여 비디오의 시공간적 특성을 학습하는 방법에 대한 논문 입니다. 이 방법을 사용하면 여러 video analysis tasks 에서 좋은 성능을 낼 수 있기에, 그 결과를 실험을 통해 보여줬습니다. Abstract 이 논문에서는 Spatio-temporal featrue learning, 즉, 시공간적 특성 학습을 위한 단순하고 효과적인 방법을 제안합니다. 간략하게 설명하자면, deep 3d convolutional networks 를 사용하여 large scale 의 supervised video dataset 으로 train 시켜서 시공간적 특성을 학습합니다. 이 논문의 finding 3가지는 다음과 같습니다. Spatio-tem..
[arXiv 2021] Multimodal End-to-End Sparse Model for Emotion Recognition

[arXiv 2021] Multimodal End-to-End Sparse Model for Emotion Recognition

2023.11.23
감정인식 관련 논문입니다. 저번 리뷰의 음성 인식처럼 한 가지 모달리티가 아니라, 총 세 가지의 모달리티 (video, audio, text) 를 이용하여 감정을 인식하는 task 에 대해 다루고 있습니다. 리뷰를 시작하기 전에 간단히 요약하자면 아래와 같습니다. 기존의 two-phase (2단계)의 파이프라인을 사용하는 모델이 아닌, Fully End-to-end (FE2E) 모델을 Emotion recognition task 에 도입하였다. 이때 사용할 수 있도록, 기존에 있던 두 가지의 데이터셋을 재구성하였다. FE2E 방식은 computational overhead 가 발생한다는 단점이 있었으므로, 이를 감소시키면서도 성능은 유지하는 Multimodal End-to-End Sparse model ..
  • 최신
    • 1
    • 2
  • 다음

정보

컴01기 블로그의 첫 페이지로 이동

컴01기

  • 컴01기의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (87)
    • 📰논문 리뷰 (16)
    • 🍒회고록 (4)
    • 🖤네이버 ai tech (0)
    • ✨글쓰는힝 (1)
    • 🔥취준일기 (2)
    • 🎲유니티 (2)
    • 🔨삽질 (10)
    • 📚 서적 리뷰 (4)
    • 🐹알고리즘 (4)
    • 😎정리하는 카테고리 (4)
    • 📝CS 공부 (6)
      • 운영체제 (1)
      • 네트워크 (4)
      • 리팩토링 (1)
    • etc (22)
      • 혼공단 (7)
      • Spring (7)
      • JS (1)
      • OpenCV (2)
      • Unity (5)

최근 글

인기 글

댓글

태그

  • unity
  • 혼공머신
  • github
  • 회고록
  • 혼공단
  • 혼공SQL
  • 혼공학습단
  • 백준

나의 외부 링크

  • Github
  • Youtube

정보

힝님의 컴01기

컴01기

힝님

방문자

  • 전체 방문자
  • 오늘
  • 어제

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / Kakao. © 힝님. Designed by Fraccino.

티스토리툴바