web-dev-qa-db-de.com

Was ist der Zweck der ROI-Schicht in einem schnellen R-CNN?

In this Tutorial zur Objekterkennung wird das schnelle R-CNN erwähnt. Die ROI-Schicht (Region of Interest) wird ebenfalls erwähnt.

Was geschieht mathematisch gesehen, wenn die Größe von Regionsvorschlägen gemäß den Endfunktionen zur Aktivierung der Faltungsschicht (in jeder Zelle) geändert wird?

21

Region-of-Interest (RoI) -Pooling:

Hierbei handelt es sich um eine Art Pooling-Layer, der max pooling für Eingaben (hier Convnet-Feature-Maps) ungleichmäßiger Größe ausführt und eine kleine Feature-Map fester Größe (z. B. 7 x 7) erstellt. Die Wahl dieser festen Größe ist ein Netzwerk-Hyperparameter und ist vordefiniert.

Der Hauptzweck eines solchen Poolings besteht darin, die Schulungs- und Testzeit zu verkürzen und das gesamte System von Ende zu Ende (auf gemeinsame Weise) zu trainieren.

Aufgrund der Verwendung dieser Pooling-Schicht ist die Trainings- und Testzeit im Vergleich zur ursprünglichen (Vanille?) R-CNN-Architektur schneller und daher der Name Fast R-CNN.

Einfaches Beispiel (von Region of Interest Pooling erklärt von deepsense.io ):

Visualization of RoI Pooling

20
kmario23

Die ROI-Schicht (Region of Interest) wird in Fast R-CNN eingeführt und ist ein Sonderfall der räumlichen Pyramiden-Pooling-Schicht, die in Spatial Pyramid Pooling in Deep Convolutional Networks for Visual eingeführt wird Anerkennung . Die Hauptfunktion des ROI-Layers besteht darin, Eingaben mit beliebiger Größe aufgrund von Größenbeschränkungen in vollständig verbundenen Layern in Ausgaben mit fester Länge umzuformen.

Wie der ROI-Layer funktioniert, sehen Sie unten:

enter image description here

In diesem Bild wird das Eingabebild mit einer beliebigen Größe in diese Ebene eingespeist, die drei verschiedene Fenster hat: 4x4 (blau), 2x2 (grün), 1x1 (grau), um Ausgaben mit einer festen Größe von 16 x F, 4 x F zu erzeugen. und 1 x F, wobei F die Anzahl der Filter ist. Diese Ausgaben werden dann zu einem Vektor verkettet, der der vollständig verbundenen Ebene zugeführt wird.

13
Nghia Tran