Los conjuntos de datos para el entrenamiento de redes neuronales [cerradas]

https://stackoverflow.com/questions/963041

12-09-2019
|

Pregunta

Busco a algunos conjuntos de datos relativamente simples para probar y comparar diferentes métodos de entrenamiento de las redes neuronales artificiales. Me gustaría datos que no tendrá demasiada pre-procesamiento para convertirlo en mi formato de entrada de una lista de entradas y salidas (normalizados a 0-1). Cualquier enlace apreciados.

Solución

¿Por qué no intentar algo tan simple como la función de pecado como los datos de entrenamiento? Puesto que usted está comparando los métodos de entrenamiento y realmente no se preocupan por lo que está entrenando a la red para, hay que trabajar y ser fácil de generar los datos de entrenamiento.

entrenar la red usando sin (x) donde x es la entrada y la salida es el valor de la función. Un beneficio adicional en su caso es que el valor absoluto del resultado ya está en el rango de 0-1. Sería igualmente trabajar con otras funciones matemáticas.

Otros consejos

https://archive.ics.uci.edu/ml es la Universidad de California Irvine repositorio de datos de aprendizaje automático. Es realmente un gran recurso, y creo que todos ellos están en archivos CSV.

Algunos recursos son

La función sinc.

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

La función sin(x) como @adrianbanks dijo.
Para probar alguna nueva modificación de algún algoritmo de las buenas pruebas de n-paridad de edad.
El conjunto de datos del iris, la mano semeion dígitos escrito conjunto de datos, etc., cualesquiera otras funciones y mucho más.
La UCI Machine Learning Repositorio: archive.ics.uci.edu/ml/datasets.html
Aquí es otro recurso que tiene muchos conjuntos de datos de regresión: www.dcc.fc.up. pt / ~ ltorgo // regresión / DataSets.html. Obtendrá muchos de estos de la UCI ML Repositorio.
Usted puede obtener conjuntos de datos de https://www.kaggle.com/ para diversos conjuntos de datos prácticos.

No creo que necesita una gran cantidad de pre-procesamiento con estos. Al igual que para las variables categóricas, puede reemplazarlos con binario utilizando un editor de texto GUI rápido. Por ejemplo, la Abalone conjunto de datos tiene un atributo categórica, el género, que tiene tres valores "M" para masculino , "F" para femenino, "I" para bebé. Puede pulsar Ctrl + R en el editor de texto y reemplazar todas las ocurrencias de "M" con 1,0,0, todas las apariciones de "F" con 0,1,0 y toda ocurrencia de "I" con 0,0,1 (teniendo en cuenta el archivo está en formato CSV). Esto hará sustituciones rápidas de las variables categóricas.

Si se encuentra en R , a continuación, puede utilizar la función normalizeData que viene con el RSNNS paquete a escala y normalizar los datos en 0 y 1.

Si se encuentra en otro entorno, como octava o MATLAB , sólo puede invertir algo de tiempo para escribir su código. No estoy al tanto de las funciones disponibles en estos ambientes, se usa el código a escala y / o normalizar los datos.

Cuando se utilizan funciones de su trabajo se hace mucho más fácil, y una vez que prepara los datos, guardar los datos modificados en un archivo.

Recuerde una cosa, el objetivo de la formación de una red neuronal no es sólo para entrenar la red de tal manera que funciona bien en un determinado conjunto de entrenamiento. El objetivo principal es la formación de la red de tal manera que tiene mejor error de nuevos datos que la red no han visto (directa o indirectamente).

http://neuroph.sourceforge.net/sample_projects.html Hay muchos proyectos de la muestra y los datos de famosos.

Estos son algunos de escritura a mano y otras bases de datos para fines de entrenamiento.

http://www.cs.nyu.edu/~roweis/data. html

Como una nota interesante, ~ roweis suicidó en 2010 después de luchar con su esposa: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html .

He aprendido RNAs como un estudiante, utilizándolos para realizar OCR (Reconocimiento Óptico de Caracteres). Creo que este es un buen caso de uso.

Escanear en dos páginas de texto, extraer las cartas y la forma de formación / pruebas de datos (por ejemplo, 8x8 píxeles conduce a 64 nodos de entrada), etiquetar los datos. Entrenar la red neuronal y obtener una puntuación usando el conjunto de datos de prueba. Cambiar los parámetros de red de topología / y sintonizar la red para obtener la mejor puntuación.

Usted puede encontrar algunos conjuntos de datos interesantes de la PNL, NER a Clasificación de imagen, saltando aquí: https://dataturks.com/projects/trending

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow