我在寻找一些相对简单的数据集,用于测试和比较不同的培训方法的人工神经网络。我会像数据,这不会花太多的预处理要把它变成我的输入格式的名单输入和输出(归一化0-1).任何链接的赞赏。

有帮助吗?

解决方案

为什么不尝试一些简单的像正弦函数作为训练数据?既然你是比较的训练方法并不真正关心你的训练网络,它应该工作,并可以方便地生成训练数据。

△是使用网络的sin(x),其中x是输入和输出是函数的值。你的情况的一个额外好处是,结果的绝对值已经是范围在0-1之间。这将同样与其他数学函数工作。

其他提示

https://archive.ics.uci.edu/ml 是加州大学机器学习数据集的欧文库。这是一个真正伟大的资源,我相信他们都在CSV文件。

某些资源

  • 的正弦的功能。

           +----
           |   sin(x)
           |  -------        when x != 0
           |     x
    sinC = |
           |
           |     1           otherwise
           +----
    
  • sin(x) 功能,如@adrianbanks告知。

  • 用于测试一些新的修改的一些算法的好老n-奇偶校验测试。

  • 虹膜数据集,semeion手写的数字数据组等,任何其他功能和更多。

  • UCI学习机储存库: archive.ics.uci.edu/ml/datasets.html

  • 这里是另一种资源具有许多回归数据集: www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html .你会得到许多这些从UCI毫升的存储库。
  • 你可以得到的数据集,从 https://www.kaggle.com/ 对于各种实际的数据集。

我不认为你需要大量的预先处理与这些。喜欢的类别变量,可以取代他们用二进制使用图文本编辑器快。例如的 鲍鱼 数据集都有一个明确的特性,两性平等,其中有三个值"M"为男性,"F"为女性,"我"婴儿。你可以按Ctrl+R中文本编辑器和替换中出现的所有"M" 1,0,0, 所有次出现的"F" 0,1,0 和所有发生的"I" 0,0,1 (考虑到文件是在CSV格式)。这将使快速替换的类别变量。

如果你是在 R, 然后你可以使用 normalizeData 功能附带的 RSNNS包 比例和标准化数据在0和1。

如果你是在其他环境样 八度matlab, 你可以只要投入一些时间来编写代码。我不知道可利用的功能在这些环境中,我用我的码尺度和/或标准化的数据。

当你用你的工作变得更加容易,而且一旦你准备的数据,保存修改的数据在一个文件。

记住一件事,目标的培训的神经网络不仅仅是火车网络中的一个方式,这样它的工作好在一定的培训设置的。主要目标是训练的网络,使其拥有最好的错误,新的数据网络还没有看到(直接或间接地).

http://neuroph.sourceforge.net/sample_projects.html 有许多样品的项目和著名的数据。

下面是一些笔迹和其他数据库用于训练目的。

http://www.cs.nyu.edu/~roweis/data。 HTML

作为一个有趣的旁注,〜roweis自杀了在2010年与他的妻子战斗后:的 http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html

我通过使用它们来执行OCR(光学字符识别)人工神经网络学习作为一个大学生。我觉得这是一个很好的使用情况。

扫描文本的两页,提取物(例如8×8像素导致64个输入节点)的字母和形式训练/测试数据集,标记数据。训练神经网络,并使用测试数据集获得的分数。改变网络拓扑/参数和调整网络以获得最佳的评分。

您可以找到NLP,NER到影像分类了一些有趣的数据集,包围在这里: https://dataturks.com/projects/trending

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top