数据集，用于神经网络的培训[封闭]

https://stackoverflow.com/questions/963041

12-09-2019
|

题

我在寻找一些相对简单的数据集，用于测试和比较不同的培训方法的人工神经网络。我会像数据，这不会花太多的预处理要把它变成我的输入格式的名单输入和输出(归一化0-1).任何链接的赞赏。

解决方案

为什么不尝试一些简单的像正弦函数作为训练数据？既然你是比较的训练方法并不真正关心你的训练网络，它应该工作，并可以方便地生成训练数据。

△是使用网络的sin（x），其中x是输入和输出是函数的值。你的情况的一个额外好处是，结果的绝对值已经是范围在0-1之间。这将同样与其他数学函数工作。

其他提示

https://archive.ics.uci.edu/ml 是加州大学机器学习数据集的欧文库。这是一个真正伟大的资源，我相信他们都在CSV文件。

某些资源

的正弦的功能。

       +----
       |   sin(x)
       |  -------        when x != 0
       |     x
sinC = |
       |
       |     1           otherwise
       +----

的 sin(x) 功能，如@adrianbanks告知。
用于测试一些新的修改的一些算法的好老n-奇偶校验测试。
虹膜数据集，semeion手写的数字数据组等，任何其他功能和更多。
UCI学习机储存库： archive.ics.uci.edu/ml/datasets.html
这里是另一种资源具有许多回归数据集： www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html .你会得到许多这些从UCI毫升的存储库。
你可以得到的数据集，从 https://www.kaggle.com/ 对于各种实际的数据集。

我不认为你需要大量的预先处理与这些。喜欢的类别变量，可以取代他们用二进制使用图文本编辑器快。例如的鲍鱼数据集都有一个明确的特性，两性平等，其中有三个值"M"为男性，"F"为女性，"我"婴儿。你可以按Ctrl+R中文本编辑器和替换中出现的所有"M" 1,0,0, 所有次出现的"F" 0,1,0 和所有发生的"I" 0,0,1 (考虑到文件是在CSV格式)。这将使快速替换的类别变量。

如果你是在 R, 然后你可以使用 normalizeData 功能附带的 RSNNS包比例和标准化数据在0和1。

如果你是在其他环境样八度或 matlab, 你可以只要投入一些时间来编写代码。我不知道可利用的功能在这些环境中，我用我的码尺度和/或标准化的数据。

当你用你的工作变得更加容易，而且一旦你准备的数据，保存修改的数据在一个文件。

记住一件事，目标的培训的神经网络不仅仅是火车网络中的一个方式，这样它的工作好在一定的培训设置的。主要目标是训练的网络，使其拥有最好的错误，新的数据网络还没有看到(直接或间接地).

http://neuroph.sourceforge.net/sample_projects.html 有许多样品的项目和著名的数据。

下面是一些笔迹和其他数据库用于训练目的。

http://www.cs.nyu.edu/~roweis/data。 HTML

作为一个有趣的旁注，〜roweis自杀了在2010年与他的妻子战斗后：的 http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html 。

我通过使用它们来执行OCR（光学字符识别）人工神经网络学习作为一个大学生。我觉得这是一个很好的使用情况。

扫描文本的两页，提取物（例如8×8像素导致64个输入节点）的字母和形式训练/测试数据集，标记数据。训练神经网络，并使用测试数据集获得的分数。改变网络拓扑/参数和调整网络以获得最佳的评分。

您可以找到NLP，NER到影像分类了一些有趣的数据集，包围在这里： https://dataturks.com/projects/trending

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow