conjuntos de dados para treinamento da rede neural [fechado]
-
12-09-2019 - |
Pergunta
Eu estou procurando alguns conjuntos de dados relativamente simples para testar e comparar diferentes métodos de treinamento para as redes neurais artificiais. Gostaria de dados que não vai demorar muito de pré-processamento para transformá-lo em meu formato de entrada de uma lista de entradas e saídas (normalizado para 0-1). Todos os links apreciado.
Solução
Por que não tentar algo simples como a função pecado como os dados de treinamento? Desde que você está comparando os métodos de treinamento e realmente não me importo sobre o que você está treinando a rede para, ele deve funcionar e ser fácil de gerar os dados de treinamento.
Train à rede usando sin (x), onde x é a entrada ea saída é o valor da função. Um benefício adicional no seu caso é que o valor absoluto do resultado já está na faixa de 0-1. Seria igualmente trabalhar com outras funções matemáticas.
Outras dicas
https://archive.ics.uci.edu/ml é da Universidade da Califórnia Irvine repositório de conjuntos de dados de aprendizado de máquina. É realmente um grande recurso, e eu acredito que todos eles estão em arquivos CSV.
Alguns recursos são
-
A função Sinc.
+---- | sin(x) | ------- when x != 0 | x sinC = | | | 1 otherwise +----
-
A função
sin(x)
como @adrianbanks disse. -
Para testar alguma nova modificação para algum algoritmo os bons testes n-paridade de idade.
-
O conjunto Iris conjunto de dados, semeion mão escrita dígitos dados etc, quaisquer outras funções e muito mais.
-
A UCI Máquina Repository Aprendizagem: archive.ics.uci.edu/ml/datasets.html
- Aqui é outro recurso ter muitos conjuntos de dados de regressão: www.dcc.fc.up. pt / ~ ltorgo // Regressão / DataSets.html . Você vai ter muitos destes do ML repositório UCI.
- Você pode obter conjuntos de dados de https://www.kaggle.com/ para vários conjuntos de dados prático.
Eu não acho que você precisar de um monte de pré-processamento com estes. Como para as variáveis ??categóricas, você pode substituí-los com binário usando um editor de texto GUI rápido. Por exemplo, a Abalone conjunto de dados tem um atributo categórico, o Sexo, que tem três valores "M" para o sexo masculino "F" para a fêmea, "I" para o infante. Você pode pressionar Ctrl + R em seu editor de texto e substituir todas as ocorrências de "M" com 1,0,0
, todas as ocorrências de "F" com 0,1,0
e toda ocorrência de "I" com 0,0,1
(considerando-se o arquivo está em formato CSV). Isso fará com substituições rápidas das variáveis ??categóricas.
Se você estiver em R , então você pode usar a função normalizeData
que vem com o RSNNS pacote a escala e normalizar seus dados em 0 e 1.
Se você estiver em outro ambiente como oitava ou Matlab , você pode apenas investir algum tempo para escrever seu código. Não tenho conhecimento de funções disponíveis nesses ambientes, eu uso o meu código de escala e / ou normalizar os dados.
Quando você usa funções de seu trabalho é feito muito mais fácil, e uma vez que você preparar os dados, salve os dados modificados em um arquivo.
Lembre-se de uma coisa, a meta de treinar a-rede neural não é apenas para treinar a rede de uma forma tal que ele funciona bem em um determinado conjunto de treinamento. O alvo principal é treinar a rede de tal forma que ele tem melhor erro para novos dados que a rede não tenha visto (direta ou indiretamente).
http://neuroph.sourceforge.net/sample_projects.html Há muitos exemplos de projetos e dados famosa.
Aqui estão alguns caligrafia e outros bancos de dados para fins de treinamento.
http://www.cs.nyu.edu/~roweis/data. html
Como uma nota interessante, ~ roweis cometeu suicídio em 2010, depois de lutar com sua esposa: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html .
Eu aprendi RNAs como uma graduação, utilizando-os para executar OCR (Optical Character Recognition). Acho que este é um caso de uso agradável.
Digitalização em duas páginas de texto, extrair as letras e formação formulário / teste conjuntos de dados (por exemplo 8x8 pixels leva a 64 nós de entrada), identificar os dados. Treinar o ANN e obter uma pontuação usando o conjunto de dados de teste. Alterar a rede de topologia / parâmetros e ajustar a rede para obter a melhor pontuação.
Você pode encontrar alguns conjuntos de dados interessantes de PNL, NER a Imagem classificação, pulando aqui: https://dataturks.com/projects/trending