I set di dati per la formazione di reti neurali [chiuse]

https://stackoverflow.com/questions/963041

12-09-2019
|

Domanda

Sto cercando alcuni relativamente semplici insiemi di dati per la verifica e il confronto diversi metodi di formazione per le reti neurali artificiali. Desidero dati che non avrà troppo pre-elaborazione per trasformarlo nel mio formato di ingresso di un elenco di ingressi e uscite (normalizzati per 0-1). Tutti i link apprezzato.

Soluzione

Perché non provare qualcosa di semplice come la funzione peccato come i dati di formazione? Dal momento che si stanno confrontando i metodi di allenamento e non mi interessa di quello che ci si allena la rete per, dovrebbe funzionare ed essere facile da generare i dati di allenamento.

addestrare il peccato rete utilizzando (x) dove x è l'ingresso e l'uscita è il valore della funzione. Un ulteriore vantaggio nel tuo caso è che il valore assoluto del risultato è già nell'intervallo 0-1. Sarebbe ugualmente lavorare con altre funzioni matematiche.

Altri suggerimenti

https://archive.ics.uci.edu/ml è l'Università della California repository Irvine di set di dati di machine learning. E 'davvero una grande risorsa, e credo che siano tutte in file CSV.

Alcune risorse sono

La funzione sinc.

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

La funzione sin(x) come @adrianbanks detto.
Per testare qualche nuova modifica qualche algoritmo buone prove vecchie n-parità.
Il dataset Iris, mano Semeion insieme cifre scritte di dati ecc, altre funzioni e molto altro ancora.
L'UCI Machine Learning Repository: archive.ics.uci.edu/ml/datasets.html
Ecco un'altra risorsa avendo molte serie di dati di regressione: www.dcc.fc.up. pt / ~ ltorgo // Regressione / DataSets.html . Otterrete molti di questi dalla UCI ML Repository.
È possibile ottenere insiemi di dati da https://www.kaggle.com/ per diversi insiemi di dati concreti.

Non credo che avete bisogno di un sacco di pre-elaborazione con questi. Come per le variabili categoriali, è possibile sostituirli con binario utilizzando un editor di testo GUI veloce. Ad esempio il Abalone set di dati ha un attributo categorica, Genere, che ha tre valori "M" per il maschio , "F" femmina, "I" per l'infante. È possibile premere Ctrl + R nel vostro editor di testo e sostituire tutte le occorrenze di "M" con 1,0,0, tutte le occorrenze di "F" con 0,1,0 e tutte le occorrenze di "I" con 0,0,1 (considerando il file è in formato CSV). Questo renderà sostituzione rapida delle variabili categoriali.

Se siete in R , quindi è possibile utilizzare la funzione normalizeData che viene fornito con il RSNNS pacchetto in scala e normalizzare i dati in 0 e 1.

Se si è in altro ambiente come ottava o MATLAB , si può solo investire un po 'di tempo per scrivere il codice. Non sono a conoscenza delle funzioni disponibili in questi ambienti, io uso il mio codice di scala e / o normalizzare i dati.

Quando si utilizzano le funzioni il vostro lavoro è molto più facile, e una volta che si preparano i dati, salvare i dati modificati in un file.

Ricordate una cosa, l'obiettivo della formazione di un neurale-rete non è solo quello di formare la rete in un modo così che funziona bene su un certo insieme di addestramento. L'obiettivo principale è quello di addestrare la rete in modo tale che esso ha più errori per nuovi dati che la rete non hanno visto (direttamente o indirettamente).

http://neuroph.sourceforge.net/sample_projects.html Ci sono molti esempi di progetti e dati famosi.

Ecco alcuni scrittura a mano e altri database per scopi di formazione.

http://www.cs.nyu.edu/~roweis/data. html

Come nota a margine interessante, ~ roweis suicidò nel 2010 dopo aver combattuto con la moglie: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html .

Ho imparato RNA come uno studente utilizzando loro di eseguire l'OCR (Optical Character Recognition). Penso che questo è un bel caso d'uso.

scansione in due pagine di testo, estrarre le lettere e formano gruppi di dati formazione / prova (ad esempio 8x8 pixel porta a 64 nodi di ingresso), etichettare i dati. Addestrare l'ANN e ottenere il punteggio utilizzando il set di dati di test. Cambiare la rete topologia / parametri e ottimizzare la rete per ottenere il miglior punteggio.

Si potrebbe trovare alcune serie di dati interessanti dal PNL, NER all'Immagine classificazione, balzando qui: https://dataturks.com/projects/trending

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow