8_DeepNoid Object Detection
Aug 25, 2021
»
writing
DeepNoid 수업을 참고하여 작성하였습니다
Object Detection
Object Detection
1. Image recognition issues - classification : 이미지 통해 물체 판별 - Detection : 물체가 있는 위치를 찾아서 물체에 대해 boxing 하는 문제 - Segmentation : 이미지를 픽셀단위로 구분하여 각 픽실이 어떤 물체인지 구분 2. Objection Detection : 영상 내에 존재하는 모든 카테고리에 대해서 classificaiton 과 localization : 이미지의 나타나는 객체들의 bounding box와 해당하는 카테고리를 예측 - 1-stage Detector : Localizaion, classification 문제를 동시에 행하는 방법(속도) - 2-stage Detector : Localization, classification 문제를 순차적으로 행하는 방법 (정확도) - R-CNN : Object Detection 분야에서 최초로 딥러닝 적용 : Region proposal + Image classification - Feature Extraction - Navice approach - Region Proposals : 대상의 class를 구분하지 않고 이미지로부터 region 을 추출하는 과정 : 알고리즘을 사용하는 것과는 상관없이 region 사용 : Selective search를 통해서 찾은 각각의 RoI에 대해서 RoI Pooling 진행 (고정된 크기의 feature vector 획득) : RoI - Region of Interest - Selective Search : 객체 인식이나 검출을 위해 가능한 후보 영역을 알아낼 수 있는 방법 : 크기에 상관없이 대상을 검출 : 컬러, 무늬, 명암 등 다양한 그룹화 기준 고려 - Classifier & Regressor - Image classification - Linear SVM : CNN 마지막단에 softmax layer 제거하고 svm 대체하여 학습 : localization에서의 취약성 존재 - Bounding Box regressor : feature vector로 얻은 proposed box와 실제 box와의 차이 정의 : CNN을 통과하여 추출된 벡터와 x, y, w, h 를 조정하는 함수의 웨이트를 곱해서 바운딩 박스를 조정해주는 선형 회귀 학습 - Multi-task Loss : classification loss + bounding box regression - Metrics - Precision - Recall : Precision : 검출 결과들 중 옳게 검출한 비율 : Recall : 실제 옳게 검출된 결과물 중에서 옳다고 예측한 비율 - Precision - Recal Curve : 물체를 검출하는 알고리즘의 성능을 평가하는 방법 : Average Precision - 인식 알고리즘의 성능을 하나의 값으로 표현한 평가지표 - Non-Maximum Suppression : 동일한 object 라 판단하는 Bbox 제거 - R-CNN 단점 : 속도 : 복잡한 구조 (resion proposal, ConvNet, SVM, Bbox regressor) : Back progation 불가능 (Multi-stage training) - Introduction : Multi-task Loss Function을 도입해 End-to-end 모델 구성 - R-CNN VS Fast R-CNN : 특징추출부터 Classification, bbox regressor 까지 모두 하나의 모델로 - Faster R-CNN : 2-stage Detector의 Real Time Detection의 포문을 연 모델 : Region Proposal 단계를 NN 안으로 끌어옴 : Fast R-CNN + Resion Proposal Network(RPN) - Resion Proposal Network(RPN) : Selective search를 대신하여 RoI 계산 : GPU 통한 RoI 계산 가능 -> Resion proposal 까지 포함된 end-to-end 가능 - Anchor Box : sliding window가 찍은 지점마다 여러 개의 region proposal 예측 1) Feature map에서 채널만큼 convolution 수행 2) 중간 layer 만들고 -> 1*1 channel 만들고 3) classification & bounding box regression result - Rol Pooling/NMS - RoIPooling : 서로 다른 크기의 regions 값을 동일한 크기로 변환