Since our model learns to predict bounding boxes from
data, it struggles to generalize to objects in new or unusual
aspect ratios or configurations. Our model also uses relatively coarse features for predicting bounding boxes since
our architecture has multiple downsampling layers from the
input image.
Object detection is a core problem in computer vision.
Detection pipelines generally start by extracting a set of
robust features from input images (Haar [25], SIFT [23],
HOG [4], convolutional features [6]). Then, classifiers
[36, 21, 13, 10] or localizers [1, 32] are used to identify
objects in the feature space. These classifiers or localizers
are run either in sliding window fashion over the whole image or on some subset of regions in the image [35, 15, 39].
https://arxiv.org/pdf/1506.02640.pdfYOLO shares some similarities with R-CNN. Each grid
cell proposes potential bounding boxes and scores those
boxes using convolutional features. However, our system
puts spatial constraints on the grid cell proposals which
helps mitigate multiple detections of the same object. Our
system also proposes far fewer bounding boxes, only 98
per image compared to about 2000 from Selective Search.
Finally, our system combines these individual components
into a single, jointly optimized model
Som jag tolkar YOLO så tar den en bild t.ex. 600x400. Sedan så finns det fixerade boxar överallt på bilden. YOLO "klipper" ut en bild och ändrar bilden så den är fyrkantig och minimerad, precis som neurala nätverket kräver, t.ex. 32x32. Bilden testas och får ut ett klassnummer. Om flera bilder inom närområdet ger samma klassnummer, ja då är det hög sannolikhet att just detta område så finns det en bild på t.ex. en häst.
Så om jag skulle bygga någon detektionsalgoritm, så borde jag egentligen bygga som R-CNN visar
- 1. Jag tar en stor bild
- 2. Klipper ut småa bilder ur den stora bilden
- 3. Jag skalar om dessa små bilder och använder pooling så bilden passar mitt neurala nätverk
- 4. Bilden får ett klassnummer.
- 5. Hoppa till steg 2.