Skip to content

Computer Vision

Vision Transformer

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale vit.png

시각적 패턴을 인식하는 합성곱 신경망(CNN)은 컴퓨터비전의 de facto 표준으로 폭넓게 사용되지만, 데이터에서 의미론적 문맥(semantic context)을 유추하는 학습은 불가능하다. 반면에 NLP 분야에서 주목받던 Transformer 계열의 추론 성능은 비약적으로 상승했는데, 학습량이 일정 수준을 넘어서면 모델이 처음 보는 작업에서도 zero-shot 추론이 가능함을 보였다.
본 논문에서는 이미지 분류용 합성곱 레이어를 Transformer Encoder 로 대체한 새로운 유형의 모델을 제시하는데, 이는 CV 분야에서 고질적인 이슈로 지적되었던 일반화 성능 문제의 돌파구가 될 것으로 예상한다.

Faster R-CNN with RPN

두 단계 방법

1stage.png

  • 기존 R-CNN 모델이 물체를 검출하는 방법
    • 후보 영역 생성 → 물체 검출
    • 두 단계가 독립적이고 메모리 공간을 공유하지 않음 (병렬화 X)
  • 후보 영역 생성
    • 물체가 있을 가능성이 높은 영역을 생성하는 단계
    • Selective Search 알고리즘 채택
      • 슈퍼 화소 분할 → 군집화
  • 물체 검출
    1. 후보 영역을 227 x 227 맵으로 정규화
    2. 합성곱으로 4096차원 특징 벡터 추출
    3. SVM 으로 물체 부류 확률 예측

YOLO: You Only Look Once

개요

arch.png

YOLO 는 신경망 기반 “개체 탐지” 처리 속도를 비약적으로 향상시킨 모델이다. 주어진 이미지에 존재하는 모든 개체의 bounding box와 class probability를 한 큐에 생성하도록 설계되었다. 분류 신경망을 이미지에 국소적으로 적용하던 R-CNN 같은 기존 방식이 가지는 복잡성과 비효율성을 YOLO 모델이 해결하면서 실시간 개체 탐지 기술의 지평선을 열었다.

  • Grid: 이미지를 S x S 격자로 쪼갠 것
  • Cell: 격자를 구성하는 단위 셀