FPN(feature pyramid networks)

Jo titulek je správný, FPN je velmi jednoduchá metoda, kterou lze použít téměř s jakýmkoli modelem pro zlepšení výsledků. Brzy se vrhneme na technickou stránku článku, ale pro tento blog existují určité předpoklady. Měli byste mít vysokoúrovňovou představu o následujících metodách: Fast RCNN, Faster RCNN, anchor boxes, hodit se bude znalost SSD. Ke všem těmto článkům mám i blogy, na které se můžete podívat(odkazy na konci tohoto blogu). FPN je relativně jednodušší, pokud dobře rozumíte všem předpokladům.

V době predikce se často používají obrazové pyramidy(více obrazů více měřítek), které zlepšují výsledky. Výpočet výsledků pomocí moderních architektur hlubokého učení je však často nákladný proces z hlediska výpočetních i časových nákladů.

FPN je založena na využití přirozené hierarchie pyramid více měřítek hluboké CNN. Je to analogické rozdílu mezi RCNN a Fast RCNN, RCNN je detektor objektů založený na regionech, ve kterém nejprve najdeme ROI pomocí algoritmu, jako je selektivní vyhledávání, a poté tyto ROI ořízneme(asi 2000) z obrazu a vložíme je do CNN, abychom získali výsledky, a ve Fast RCNN jsou počáteční vrstvy CNN sdíleny pro celý obraz a oříznutí ROI se provádí na extrahované mapě rysů, čímž se ušetří mnoho času. V případě FPN je výzkum založen na využití vnitřní víceúrovňové povahy a obrazová pyramida je nějakým způsobem implementována interně do architektury a sdílení většiny částí sítě. Nyní přejdeme k technickým podrobnostem:

CNN je založena na hierarchické struktuře, v níž se rozlišení mapy příznaků po každé vrstvě snižuje, ale sémantika zachycená každou hlubší vrstvou je silnější než předchozí vrstva. Sémanticky silnější rysy jsou prostorově hrubší z důvodu snížení vzorkování. FPN vytváří architekturu, kde jsou sémanticky silnější rysy sloučeny s rysy z předchozích vrstev(které jsou podvzorkovány méněkrát, a mají tedy přesnější lokalizační informace).

Architektura se skládá ze dvou cest: