Les ensembles de données pour la formation réseau de neurones [fermé]

https://stackoverflow.com/questions/963041

12-09-2019
|

Question

Je cherche des ensembles de données relativement simples pour tester et comparer les différentes méthodes de formation pour les réseaux de neurones artificiels. Je voudrais des données qui ne prendra pas trop de pré-traitement pour le transformer en mon format d'entrée d'une liste des entrées et sorties (normalisées à 0-1). Tous les liens appréciés.

La solution

Pourquoi ne pas essayer quelque chose de simple comme la fonction sin que les données de formation? Puisque vous comparez les méthodes de formation et ne se soucient pas vraiment de ce que vous êtes de formation pour le réseau, il devrait fonctionner et être facile à générer les données de formation.

Former le réseau en utilisant sin (x) où x est l'entrée et la sortie est la valeur de la fonction. Un avantage supplémentaire dans votre cas est que la valeur absolue du résultat est déjà dans la gamme 0-1. Il travaillerait également avec d'autres fonctions mathématiques.

Autres conseils

https://archive.ics.uci.edu/ml est l'Université de Californie Irvine dépôt des ensembles de données d'apprentissage de la machine. Il est une ressource vraiment super, et je crois qu'ils sont tous dans des fichiers CSV.

Certaines ressources sont

La fonction sinC.

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

La fonction sin(x) comme @adrianbanks dit.
Pour tester une nouvelle modification à un algorithme bon vieux essais n-parité.
L'ensemble de données Iris ensemble de données, la main semeion écrit chiffres etc, toutes les autres fonctions et beaucoup plus.
L'apprentissage automatique UCI Repository: archive.ics.uci.edu/ml/datasets.html
Voici une autre ressource ayant de nombreux ensembles de données de régression: www.dcc.fc.up. pt / ~ ltorgo // régression / DataSets.html . Vous obtiendrez beaucoup de ces de l'UCI ML Repository.
Vous pouvez obtenir des ensembles de données à partir de https://www.kaggle.com/ pour divers ensembles de données pratiques.

Je ne pense pas que vous avez besoin d'un grand nombre de pré-traitement avec ces derniers. Comme pour les variables, vous pouvez les remplacer par binaire en utilisant un éditeur de texte de l'interface graphique rapide. Par exemple, le href="http://archive.ics.uci.edu/ml/datasets/Abalone"> Abalone a un attribut catégorique, le genre, qui a trois valeurs « M » pour les hommes , "F" pour femme, "I" pour nourrisson. Vous pouvez appuyer sur Ctrl + R dans votre éditeur de texte et remplacer toutes les occurrences de « M » avec 1,0,0, toutes les occurrences de « F » avec 0,1,0 et tout occurrence de « I » avec 0,0,1 (en considérant le fichier est au format CSV). Cela fera des remplacements rapides des variables.

Si vous êtes dans R , vous pouvez utiliser la fonction normalizeData qui vient avec la RSNNS à l'échelle et à normaliser vos données 0 et 1.

Si vous êtes dans un autre environnement comme octave ou Matlab , vous pouvez simplement investir un peu de temps pour écrire votre code. Je ne suis pas au courant des fonctions disponibles dans ces environnements, j'utiliser mon code à l'échelle et / ou normaliser les données.

Lorsque vous utilisez les fonctions de votre travail est beaucoup plus facile, et une fois que vous préparez les données, enregistrer les données modifiées dans un fichier.

Rappelez-vous une chose, l'objectif de la formation d'un réseau de neurones est non seulement de former le réseau d'une manière telle que cela fonctionne bien sur un certain ensemble de formation. L'objectif principal est de former le réseau de telle sorte qu'elle possède le meilleur erreur pour de nouvelles données qui n'a pas vu le réseau (directement ou indirectement).

http://neuroph.sourceforge.net/sample_projects.html Il y a de nombreux exemples de projets et de données célèbres.

Voici quelques bases de données d'écriture et d'autres à des fins de formation.

http://www.cs.nyu.edu/~roweis/data. html

En tant que note intéressante, ~ Roweis se suicide en 2010 après avoir combattu avec sa femme: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html .

J'ai appris ANNs en tant qu'étudiant en les utilisant pour effectuer l'OCR (reconnaissance optique de caractères). Je pense que c'est un beau cas d'utilisation.

Numérisation en deux pages de texte, extraire les lettres et forment des ensembles de données de formation / d'essai (par exemple 8x8 pixels conduit à 64 noeuds d'entrée), étiqueter les données. Former le ANN et obtenir un score en utilisant l'ensemble de données de test. Modifier la topologie réseau / paramètres et régler le réseau pour obtenir le meilleur score.

Vous pouvez trouver des ensembles de données intéressants de la PNL, NER à la classification de l'image, bondissantes ici: https://dataturks.com/projects/trending

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow