使用什么数据挖掘应用程序？ [关闭]

题

我使用的最后一个是 weka 。最后我听说java为它提出了一个API（JDM）。任何人都可以与这些工具分享经验。我最感兴趣的是使用这些工具进行分类/聚类（weka在这里做得不错），该工具应该有很好的API支持。

解决方案

我使用Weka进行文本分类。很不错。书籍也很不错。一个框架的想法，你可以保持数据表示和修改算法是伟大的。

其他提示

我正在使用 RapidMiner （以前是多特蒙德大学的YALE））。它是一个基于Java的开源工具，实现了大多数流行的分类器/集群方法。它还附带了为Weka工具包实现的算法，因此有更多的选择。附带一个易于使用的GUI和一个基于Java的API。

Weka是一个流行的数据挖掘平台，有许多教科书算法可用于分类，聚类等。它非常适合快速原型设计，即快速建立系统并验证它是否符合预期目标。

然而，Weka有两个主要问题。第一个是它是在GPL许可下分发的，这意味着你不能将它作为商业软件包的一部分使用，你不能修改它而不发布更改。此外，Weka的另一个弱点是它不处理大量数据。如果您的数据无法放入计算机内存中，那么您就会遇到问题。

使用 Apache Mahout 软件包解决了这两个问题。它相对较新且缺乏一些功能，但根据数据挖掘问题，您可能是正确的选择

我们在为分类和聚类开发的一些软件中使用了Weka。我不是数据挖掘的专家，但是评估它和其他一些产品的团队当然知道他们的东西，并且通常习惯使用非常昂贵的现成产品。

根据2007年，2008年和2009年的年度KDnuggets民意调查，RapidMiner是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案： KDnuggets Data Mining Tool Poll 2009

RapidMiner是开源的，100％是Java，RapidMiner比Weka更灵活，功能更强大。

您真的应该查看Orange数据挖掘工具包。它带有拖放gui和Python API。

我使用自己用Java开发的软件，专门从事交易数据库或序列数据库的频繁模式和关联规则挖掘：

它提供了46种算法，包括一些在任何其他流行的数据挖掘软件中都找不到的算法。有GUI版本和源代码版本。

许可以下： CC-BY-SA 和归因