Finns det ljudgivare som kan ge tillbaka data i from av ett spektrum?

DanielM · Inlägg av **DanielM** » 20 augusti 2023, 14:55:27

Jag har läst lite grann av artikeln. Den information jag tycker är intressant är

Since our model learns to predict bounding boxes from
data, it struggles to generalize to objects in new or unusual
aspect ratios or configurations. Our model also uses relatively coarse features for predicting bounding boxes since
our architecture has multiple downsampling layers from the
input image.

Object detection is a core problem in computer vision.
Detection pipelines generally start by extracting a set of
robust features from input images (Haar [25], SIFT [23],
HOG [4], convolutional features [6]). Then, classifiers
[36, 21, 13, 10] or localizers [1, 32] are used to identify
objects in the feature space. These classifiers or localizers
are run either in sliding window fashion over the whole image or on some subset of regions in the image [35, 15, 39].

YOLO shares some similarities with R-CNN. Each grid
cell proposes potential bounding boxes and scores those
boxes using convolutional features. However, our system
puts spatial constraints on the grid cell proposals which
helps mitigate multiple detections of the same object. Our
system also proposes far fewer bounding boxes, only 98
per image compared to about 2000 from Selective Search.
Finally, our system combines these individual components
into a single, jointly optimized model

https://arxiv.org/pdf/1506.02640.pdf

Som jag tolkar YOLO så tar den en bild t.ex. 600x400. Sedan så finns det fixerade boxar överallt på bilden. YOLO "klipper" ut en bild och ändrar bilden så den är fyrkantig och minimerad, precis som neurala nätverket kräver, t.ex. 32x32. Bilden testas och får ut ett klassnummer. Om flera bilder inom närområdet ger samma klassnummer, ja då är det hög sannolikhet att just detta område så finns det en bild på t.ex. en häst.

Logreg_Result.png

Så om jag skulle bygga någon detektionsalgoritm, så borde jag egentligen bygga som R-CNN visar

1. Jag tar en stor bild
2. Klipper ut småa bilder ur den stora bilden
3. Jag skalar om dessa små bilder och använder pooling så bilden passar mitt neurala nätverk
4. Bilden får ett klassnummer.
5. Hoppa till steg 2.

Efter alla små bilder har analyserats, så kan man dra sin slutsats om vart objekten fanns.

DanielM · Inlägg av **DanielM** » 21 augusti 2023, 08:36:57

Jag har tittat lite mera på Yolo. Det verkar som att Yolo kanske inte är det rätta verktyget för mig.

Yolo använder sig av CNN nätverk, ett sätt för att reducera ned dimensionen på en bild.
CNN använder sig av en matris som ett filter. Just detta filter kräver mycket data att skapa, trots att filtret kanske bara är en 3x3 matris.

Jag har dock tittat på HOG + SVM. En metod som är fortfarande populär, men kanske inte lika populär som Yolo.
HOG + SVM uppfanns runt 2005 och användes som standard inom realtidsklassificering, innan Yolo bröt ut runt 2014.

En fördel med HOG + SVM är att dom är enkla att träna och ger samma noggrannhet som Yolo, förutsatt att att delar av det objektet som ska klassificeras är ej skymt.

Finns det ljudgivare som kan ge tillbaka data i from av ett spektrum?

Re: Finns det ljudgivare som kan ge tillbaka data i from av ett spektrum?

Re: Finns det ljudgivare som kan ge tillbaka data i from av ett spektrum?