Skip to content

Computer Vision

Vision Transformer

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale vit.png

Transformer 모델은 토큰의 유사도를 비교하는 self-attention 구조의 유연성 덕분에 높은 수준의 task-agnostic performance 를 보여주었다. 또한 학습에 사용되는 데이터 규모가 일정 수준을 넘어서면 downstream task 에서도 일관된 성능을 보이는 zero-shot learning 현상이 감지되기도 한다. 본 논문의 저자들은 Patch embedding 기법을 고안해서 Transformer 인코더 구조에 어떠한 변형도 가하지 않고 비전 인식 분류 문제에 적용하는 기발한 아이디어를 제시한다.

Faster R-CNN with RPN

두 단계 방법

1stage.png

  • 기존 R-CNN 모델이 물체를 검출하는 방법
    • 후보 영역 생성 → 물체 검출
    • 두 단계가 독립적이고 메모리 공간을 공유하지 않음 (병렬화 X)
  • 후보 영역 생성
    • 물체가 있을 가능성이 높은 영역을 생성하는 단계
    • Selective Search 알고리즘 채택
      • 슈퍼 화소 분할 → 군집화
  • 물체 검출
    1. 후보 영역을 227 x 227 맵으로 정규화
    2. 합성곱으로 4096차원 특징 벡터 추출
    3. SVM 으로 물체 부류 확률 예측

YOLO: You Only Look Once

개요

arch.png

YOLO 는 신경망 기반 “개체 탐지” 처리 속도를 비약적으로 향상시킨 모델이다. 주어진 이미지에 존재하는 모든 개체의 bounding box와 class probability를 한 큐에 생성하도록 설계되었다. 분류 신경망을 이미지에 국소적으로 적용하던 R-CNN 같은 기존 방식이 가지는 복잡성과 비효율성을 YOLO 모델이 해결하면서 실시간 개체 탐지 기술의 지평선을 열었다.

  • Grid: 이미지를 S x S 격자로 쪼갠 것
  • Cell: 격자를 구성하는 단위 셀