Frage

Ich habe viele Beispiele online in Bezug auf den MNIST -Datensatz gesehen, aber alles ist in Schwarzweiß. In diesem Fall kann ein 2D -Array konstruiert werden, wobei die Werte an jedem Array -Element die Intensität des entsprechenden Pixels darstellen. Was ist jedoch, wenn ich farbige Bilder machen möchte? Was ist der beste Weg, um die RGB -Daten darzustellen?

Es gibt eine sehr kurze Diskussion darüber hier, was ich unten zitiere. Ich verstehe jedoch immer noch nicht, wie die RGB -Daten organisiert werden sollen. Gibt es außerdem eine OpenCV -Bibliothek/-befehle, mit der wir die farbigen Bilder vorbereiten sollten?

Die Feature-Detektoren in der zweiten Faltungs-Pooling-Schicht haben Zugriff auf alle Merkmale der vorherigen Schicht, jedoch nur innerhalb ihres bestimmten lokalen Empfangsfeldes*

*Dieses Problem wäre in der ersten Schicht aufgetreten, wenn die Eingangsbilder in Farbe wären. In diesem Fall haben wir 3 Eingangsfunktionen für jedes Pixel, die im Eingangsbild den roten, grünen und blauen Kanälen entsprechen. Daher ermöglichen wir den Feature -Detektoren, Zugriff auf alle Farbinformationen zu haben, jedoch nur innerhalb eines bestimmten lokalen Empfängnisverhaltens.

War es hilfreich?

Lösung

Ihre R-, G- und B -Pixelwerte können in 3 separate Kanäle unterteilt werden (und in den meisten Fällen wird dies für Sie durchgeführt). Diese Kanäle werden in höheren Netzwerken nicht anders behandelt als Karten. Die Faltung erstreckt sich natürlich auf mehr als 2 Dimensionen.

Stellen Sie sich das Beispiel für ein Einkanal-Beispiel für die Grauskala vor. Angenommen, Sie haben n Feature -Karten in der ersten Ebene zu lernen. Anschließend wird die Ausgabe dieser Schicht (und daher die Eingabe in die zweite Ebene) aus N -Kanälen bestehen, von denen jedes das Ergebnis des Einbindung einer Merkmalskarte mit jedem Fenster in Ihrem Bild ist. Es ist nicht anders, 3 Kanäle in Ihrer ersten Ebene zu haben.

Dieses Tutorial leistet eine gute Arbeit bei der Faltung im Allgemeinen.

http://deeplearning.net/tutorial/lenet.html

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top