Jah ondertitel klopt, FPN is een zeer eenvoudige methode die met vrijwel elk model kan worden gebruikt om de resultaten te verbeteren. We zullen binnenkort ingaan op de technische aspecten van het artikel, maar voor deze blog zijn er enkele vereisten. Je moet een high-level idee hebben over de volgende Fast RCNN, Faster RCNN, anchor boxes, kennis van SSD zal van pas komen. Ik heb blogs voor al deze papers ook kunt u ze controleren (links aan het einde van deze blog). FPN is een relatief eenvoudiger als je alle randvoorwaarden goed begrijpt.
Image piramides(meerdere beelden van meerdere schalen) worden vaak gebruikt op het moment van voorspellingen om de resultaten te verbeteren. Maar het berekenen van resultaten met behulp van moderne deep learning-architecturen is vaak een duur proces in termen van zowel rekenkracht als tijd.
FPN is gebaseerd op het exploiteren van de inherente multi-scale piramidale hiërarchie van diepe CNN. Het is analoog aan het verschil tussen RCNN en Fast RCNN, RCNN is een regio-gebaseerde objectdetector waarin we eerst ROI’s vinden met behulp van een algoritme zoals selectief zoeken en dan deze ROI’s (ongeveer 2000) uit het beeld snijden en ze in CNN voeren om resultaten te krijgen en in Fast RCNN worden de eerste lagen van CNN gedeeld voor het volledige beeld en wordt het ROI-snijden gedaan op de geëxtraheerde feature map waardoor veel tijd wordt bespaard. In het geval van FPN, is het onderzoek gebaseerd op het exploiteren van de interne multi-scale natuur, en de beeldpiramide is op een of andere manier intern geïmplementeerd om de architectuur en het delen van de meeste delen van het netwerk. We zullen nu springen in technische details.
CNN is gebaseerd op de hiërarchische structuur waarin de resolutie van de feature map wordt verminderd na elke laag, maar semantiek vastgelegd door elke diepere laag is sterker dan de vorige laag. De semantisch sterkere kenmerken zijn ruimtelijk grover door downsampling. FPN creëert een architectuur waar de semantisch sterkere kenmerken worden samengevoegd met de kenmerken van de vorige lagen (die minder vaak zijn gesubsampled en dus meer nauwkeurige lokalisatie-informatie hebben).
De architectuur bestaat uit twee paden:
- Bottom-up pathway (Normale feed-forward CNN)
- Top-down pathway (Nieuwe architectuur gebruikt voor het samenvoegen van features)
Hier 224 is de trainingsgrootte van het beeld in de imagenet dataset (het gebruikte resnet wordt behouden op imagenet). k0 is de feature map waaraan ROI van grootte 224 is toegewezen, w en h is breedte en hoogte van ROI. Het hoofd heeft gedeelde parameters voor elke feature map.