conjuntos de dados para treinamento da rede neural [fechado]

https://stackoverflow.com/questions/963041

12-09-2019
|

Pergunta

Eu estou procurando alguns conjuntos de dados relativamente simples para testar e comparar diferentes métodos de treinamento para as redes neurais artificiais. Gostaria de dados que não vai demorar muito de pré-processamento para transformá-lo em meu formato de entrada de uma lista de entradas e saídas (normalizado para 0-1). Todos os links apreciado.

Solução

Por que não tentar algo simples como a função pecado como os dados de treinamento? Desde que você está comparando os métodos de treinamento e realmente não me importo sobre o que você está treinando a rede para, ele deve funcionar e ser fácil de gerar os dados de treinamento.

Train à rede usando sin (x), onde x é a entrada ea saída é o valor da função. Um benefício adicional no seu caso é que o valor absoluto do resultado já está na faixa de 0-1. Seria igualmente trabalhar com outras funções matemáticas.

Outras dicas

https://archive.ics.uci.edu/ml é da Universidade da Califórnia Irvine repositório de conjuntos de dados de aprendizado de máquina. É realmente um grande recurso, e eu acredito que todos eles estão em arquivos CSV.

Alguns recursos são

A função Sinc.

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

A função sin(x) como @adrianbanks disse.
Para testar alguma nova modificação para algum algoritmo os bons testes n-paridade de idade.
O conjunto Iris conjunto de dados, semeion mão escrita dígitos dados etc, quaisquer outras funções e muito mais.
A UCI Máquina Repository Aprendizagem: archive.ics.uci.edu/ml/datasets.html
Aqui é outro recurso ter muitos conjuntos de dados de regressão: www.dcc.fc.up. pt / ~ ltorgo // Regressão / DataSets.html . Você vai ter muitos destes do ML repositório UCI.
Você pode obter conjuntos de dados de https://www.kaggle.com/ para vários conjuntos de dados prático.

Eu não acho que você precisar de um monte de pré-processamento com estes. Como para as variáveis ??categóricas, você pode substituí-los com binário usando um editor de texto GUI rápido. Por exemplo, a Abalone conjunto de dados tem um atributo categórico, o Sexo, que tem três valores "M" para o sexo masculino "F" para a fêmea, "I" para o infante. Você pode pressionar Ctrl + R em seu editor de texto e substituir todas as ocorrências de "M" com 1,0,0, todas as ocorrências de "F" com 0,1,0 e toda ocorrência de "I" com 0,0,1 (considerando-se o arquivo está em formato CSV). Isso fará com substituições rápidas das variáveis ??categóricas.

Se você estiver em R , então você pode usar a função normalizeData que vem com o RSNNS pacote a escala e normalizar seus dados em 0 e 1.

Se você estiver em outro ambiente como oitava ou Matlab , você pode apenas investir algum tempo para escrever seu código. Não tenho conhecimento de funções disponíveis nesses ambientes, eu uso o meu código de escala e / ou normalizar os dados.

Quando você usa funções de seu trabalho é feito muito mais fácil, e uma vez que você preparar os dados, salve os dados modificados em um arquivo.

Lembre-se de uma coisa, a meta de treinar a-rede neural não é apenas para treinar a rede de uma forma tal que ele funciona bem em um determinado conjunto de treinamento. O alvo principal é treinar a rede de tal forma que ele tem melhor erro para novos dados que a rede não tenha visto (direta ou indiretamente).

http://neuroph.sourceforge.net/sample_projects.html Há muitos exemplos de projetos e dados famosa.

Aqui estão alguns caligrafia e outros bancos de dados para fins de treinamento.

http://www.cs.nyu.edu/~roweis/data. html

Como uma nota interessante, ~ roweis cometeu suicídio em 2010, depois de lutar com sua esposa: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html .

Eu aprendi RNAs como uma graduação, utilizando-os para executar OCR (Optical Character Recognition). Acho que este é um caso de uso agradável.

Digitalização em duas páginas de texto, extrair as letras e formação formulário / teste conjuntos de dados (por exemplo 8x8 pixels leva a 64 nós de entrada), identificar os dados. Treinar o ANN e obter uma pontuação usando o conjunto de dados de teste. Alterar a rede de topologia / parâmetros e ajustar a rede para obter a melhor pontuação.

Você pode encontrar alguns conjuntos de dados interessantes de PNL, NER a Imagem classificação, pulando aqui: https://dataturks.com/projects/trending

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow