8_DeepNoid Object Detection
Aug 25, 2021
»
writing
DeepNoid 수업을 참고하여 작성하였습니다
Object Detection
Object Detection
1. Image recognition issues
- classification
: 이미지 통해 물체 판별
- Detection
: 물체가 있는 위치를 찾아서 물체에 대해 boxing 하는 문제
- Segmentation
: 이미지를 픽셀단위로 구분하여 각 픽실이 어떤 물체인지 구분
2. Objection Detection
: 영상 내에 존재하는 모든 카테고리에 대해서
classificaiton 과 localization
: 이미지의 나타나는 객체들의 bounding box와 해당하는
카테고리를 예측
- 1-stage Detector : Localizaion, classification
문제를 동시에 행하는 방법(속도)
- 2-stage Detector : Localization, classification
문제를 순차적으로 행하는 방법 (정확도)
- R-CNN
: Object Detection 분야에서 최초로 딥러닝 적용
: Region proposal + Image classification
- Feature Extraction
- Navice approach
- Region Proposals
: 대상의 class를 구분하지 않고 이미지로부터 region 을 추출하는 과정
: 알고리즘을 사용하는 것과는 상관없이 region 사용
: Selective search를 통해서 찾은 각각의 RoI에 대해서 RoI Pooling 진행
(고정된 크기의 feature vector 획득)
: RoI - Region of Interest
- Selective Search
: 객체 인식이나 검출을 위해 가능한 후보 영역을
알아낼 수 있는 방법
: 크기에 상관없이 대상을 검출
: 컬러, 무늬, 명암 등 다양한 그룹화 기준 고려
- Classifier & Regressor
- Image classification
- Linear SVM
: CNN 마지막단에 softmax layer 제거하고 svm 대체하여 학습
: localization에서의 취약성 존재
- Bounding Box regressor
: feature vector로 얻은 proposed box와 실제 box와의 차이 정의
: CNN을 통과하여 추출된 벡터와 x, y, w, h 를 조정하는 함수의
웨이트를 곱해서 바운딩 박스를 조정해주는 선형 회귀 학습
- Multi-task Loss
: classification loss + bounding box regression
- Metrics
- Precision - Recall
: Precision : 검출 결과들 중 옳게 검출한 비율
: Recall : 실제 옳게 검출된 결과물 중에서 옳다고 예측한 비율
- Precision - Recal Curve
: 물체를 검출하는 알고리즘의 성능을 평가하는 방법
: Average Precision - 인식 알고리즘의 성능을 하나의 값으로 표현한 평가지표
- Non-Maximum Suppression
: 동일한 object 라 판단하는 Bbox 제거
- R-CNN 단점
: 속도
: 복잡한 구조 (resion proposal, ConvNet, SVM, Bbox regressor)
: Back progation 불가능 (Multi-stage training)
- Introduction
: Multi-task Loss Function을 도입해 End-to-end 모델 구성
- R-CNN VS Fast R-CNN
: 특징추출부터 Classification, bbox regressor 까지 모두 하나의 모델로
- Faster R-CNN
: 2-stage Detector의 Real Time Detection의 포문을 연 모델
: Region Proposal 단계를 NN 안으로 끌어옴
: Fast R-CNN + Resion Proposal Network(RPN)
- Resion Proposal Network(RPN)
: Selective search를 대신하여 RoI 계산
: GPU 통한 RoI 계산 가능 -> Resion proposal 까지 포함된 end-to-end 가능
- Anchor Box
: sliding window가 찍은 지점마다 여러 개의 region proposal 예측
1) Feature map에서 채널만큼 convolution 수행
2) 중간 layer 만들고 -> 1*1 channel 만들고
3) classification & bounding box regression result
- Rol Pooling/NMS
- RoIPooling
: 서로 다른 크기의 regions 값을 동일한 크기로 변환