Yah podtytuł jest poprawny, FPN jest bardzo prostą metodą, która może być używana z prawie każdym modelem w celu poprawy wyników. Wkrótce wskoczymy w techniczne aspekty papieru, ale dla tego bloga, są pewne warunki wstępne. Powinieneś mieć wysokopoziomowe pojęcie o następujących Fast RCNN, Faster RCNN, anchor boxes, wiedza o SSD będzie przydatna. Mam blogi dla wszystkich tych papierów, jak również można je sprawdzić (linki na końcu tego bloga). FPN jest stosunkowo prostszy, jeśli dobrze zrozumiesz wszystkie warunki wstępne.
Piramidy obrazów (wiele obrazów o wielu skalach) są często używane w czasie przewidywania, aby poprawić wyniki. Ale obliczanie wyników przy użyciu nowoczesnych architektur głębokiego uczenia się jest często drogim procesem zarówno pod względem obliczeniowym, jak i czasowym.
FPN opiera się na wykorzystaniu nieodłącznej wieloskalowej hierarchii piramid w głębokiej CNN. Jest to analogiczne do różnicy między RCNN i Fast RCNN, RCNN jest region-based wykrywacz obiektów, w którym najpierw znaleźć ROI za pomocą algorytmu, takiego jak selektywne wyszukiwanie, a następnie przyciąć te ROI (około 2000) z obrazu i karmienia ich do CNN, aby uzyskać wyniki i w Fast RCNN początkowe warstwy CNN są wspólne dla całego obrazu i ROI przycinanie odbywa się na wyodrębnionej mapie cech, oszczędzając w ten sposób dużo czasu. W przypadku FPN, badania opierają się na wykorzystaniu wewnętrznej wieloskalowej natury, a piramida obrazu jest w jakiś sposób zaimplementowana wewnętrznie do architektury i współdzielenia większości części sieci. Będziemy skakać do szczegółów technicznych teraz.
CNN opiera się na strukturze hierarchicznej, w której rozdzielczość mapy funkcji jest zmniejszona po każdej warstwie, ale semantyka przechwytywane przez każdego głębszego warstwy jest silniejszy niż w poprzedniej warstwie. Silniejsze semantycznie cechy są przestrzennie grubsze ze względu na downsampling. FPN tworzy architekturę, w której semantycznie silniejsze cechy są łączone z cechami z poprzednich warstw (które są podpróbkowane mniej razy, a więc mają dokładniejsze informacje lokalizacyjne).
Architektura składa się z dwóch ścieżek:
- Ścieżka bottom-up (Normal feed-forward CNN)
- Ścieżka top-down (Nowa architektura używana do łączenia cech)
Tutaj 224 jest rozmiarem treningowym obrazu w zbiorze danych imagenet (użyty resnet jest zachowany w imagenet). k0 to mapa cech, do której przypisany jest ROI o rozmiarze 224, w i h to szerokość i wysokość ROI. Głowica posiada wspólne parametry dla każdej mapy cech.