Datensätze für neuronale Netzwerk Ausbildung [geschlossen]

https://stackoverflow.com/questions/963041

12-09-2019
|

Frage

Ich bin auf der Suche für einige relativ einfache Datensatz für die Prüfung und verschiedene Trainingsmethoden für künstliche neuronale Netzwerke zu vergleichen. Ich würde Daten wie die nicht zu viel Vorbearbeitung nehmen sie in meine Eingabeformat einer Liste der Ein- und Ausgänge (normiert auf 0-1) zu drehen. Alle Links geschätzt.

Lösung

Warum nicht versuchen, etwas Einfaches wie die sin-Funktion wie die Trainingsdaten? Da Sie die Trainingsmethoden vergleichen und nicht wirklich interessieren, was Sie das Netzwerk für Ausbildung sind, sollte es funktionieren und leicht sein, die Trainingsdaten zu erzeugen.

Trainieren Sie das Netzwerk mit sin (x), wobei x der Eingang und der Ausgang ist der Wert der Funktion. Ein weiterer Vorteil in Ihrem Fall ist, dass der absolute Wert des Ergebnisses ist bereits im Bereich 0-1. Ebenso wäre es mit anderen mathematischen Funktionen arbeiten.

Andere Tipps

https://archive.ics.uci.edu/ml ist die University of California Irvine Repository des maschinellen Lernens Datensätze. Es ist eine wirklich großartige Ressource, und ich glaube, dass sie alle in CSV-Dateien sind.

Einige Ressourcen sind

Die SINC-Funktion.

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

Die sin(x) Funktion als @adrianbanks erzählt.
Für eine neue Modifikation zu einem gewissen Algorithmus, um die guten alten n-Parity-Tests getestet werden.
Die Iris-Datensatz, semeion handgeschriebene Ziffern-Datensatz usw., alle anderen Funktionen und vieles mehr.
Die UCI Machine Learning Repository: archive.ics.uci.edu/ml/datasets.html
Hier ist eine andere Ressource viele Regressions Datensätze mit: www.dcc.fc.up. pt / ~ ltorgo // Regression / DataSets.html . Sie werden viele von ihnen aus dem UCI ML Repository erhalten.
Sie können Datensätze erhalten von https://www.kaggle.com/ für verschiedene praktische Datensätzen.

Ich glaube nicht, dass Sie eine Menge Vorverarbeitung mit diesen erfordern. Wie für kategorische Variablen, können Sie sie ersetzen mit binären schnell einen GUI-Texteditor. Zum Beispiel hat die Abalone Datensatz ein kategorisches Attribut, das Geschlecht, die für männliche drei Werte „M“ hat , "F" für weiblich, "I" für Kleinkind. Sie können Strg + R in Ihrem Texteditor drücken und alle Vorkommen von „M“ mit 1,0,0, alle Vorkommen von „F“ mit 0,1,0 und alle Vorkommen von „I“ mit 0,0,1 ersetzen (die Datei unter Berücksichtigung wird im CSV-Format). Dies wird schnell Ersatz der kategorischen Variablen machen.

Wenn Sie in R sind, dann können Sie die normalizeData Funktion benutzen, die mit der RSNNS Paket Ihre Daten in 0 und 1 skalieren und normalisieren.

Wenn Sie in einer anderen Umgebung wie Oktave oder Matlab , können Sie investieren nur einige Zeit, Ihren Code zu schreiben. Ich bin mir nicht bewusst verfügbaren Funktionen in diesen Umgebungen, ich meinen Code verwenden, zu skalieren und / oder die Daten zu normalisieren.

Wenn Sie Funktionen verwenden, um Ihre Arbeit wird erheblich erleichtert, und wenn Sie die Daten vor, die geänderten Daten in einer Datei speichern.

Denken Sie daran, eine Sache, das Ziel ein neuronalen-Netzwerkes Ausbildung ist nicht nur das Netzwerk in einer Art und Weise zu trainieren, so dass sie auf einem bestimmten Trainingssatz gut funktioniert. Das Hauptziel ist es, das Netz zu trainieren, so dass es am besten Fehler für neue Daten hat, die das Netzwerk nicht (direkt oder indirekt) zu sehen.

http://neuroph.sourceforge.net/sample_projects.html Es gibt viele Beispielprojekte und berühmte Daten.

Hier sind einige Handschriften und andere Datenbanken für Schulungszwecke.

http://www.cs.nyu.edu/~roweis/data. html

Als interessante Randnotiz, ~ roweis im Jahr 2010 Selbstmord begangen, nachdem er mit seiner Frau zu kämpfen: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html .

Ich habe gelernt, KNN als Student von ihnen mittels OCR (Optical Character Recognition) durchzuführen. Ich denke, das ist ein schöner Anwendungsfall.

Scan in zwei Textseiten, extrahieren die Buchstaben und Form Training / Testdatensätze (z.B. 8x8 Pixeln zu 64 Eingangsknoten führt), die Daten kennzeichnen. Train the ANN und erhält eine Punktzahl mit dem Testdatensatz. Ändern Sie die Netzwerktopologie / Parameter und stimmen Sie auf das Netzwerk, das beste Ergebnis zu erhalten.

Sie könnten einige interessante Datensätze aus NLP, NER dem Bild Klassifizierung finden, Bounding hier: https://dataturks.com/projects/trending

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow