我使用的最后一个是 weka 。最后我听说java为它提出了一个API(JDM)。任何人都可以与这些工具分享经验。我最感兴趣的是使用这些工具进行分类/聚类(weka在这里做得不错),该工具应该有很好的API支持。

有帮助吗?

解决方案

我使用Weka进行文本分类。很不错。 书籍也很不错。一个框架的想法,你可以保持数据表示和修改算法是伟大的。

其他提示

我正在使用 RapidMiner (以前是多特蒙德大学的YALE) )。它是一个基于Java的开源工具,实现了大多数流行的分类器/集群方法。它还附带了为Weka工具包实现的算法,因此有更多的选择。附带一个易于使用的GUI和一个基于Java的API。

Weka是一个流行的数据挖掘平台,有许多教科书算法可用于分类,聚类等。它非常适合快速原型设计,即快速建立系统并验证它是否符合预期目标。

然而,Weka有两个主要问题。第一个是它是在GPL许可下分发的,这意味着你不能将它作为商业软件包的一部分使用,你不能修改它而不发布更改。此外,Weka的另一个弱点是它不处理大量数据。如果您的数据无法放入计算机内存中,那么您就会遇到问题。

使用 Apache Mahout 软件包解决了这两个问题。它相对较新且缺乏一些功能,但根据数据挖掘问题,您可能是正确的选择

我们在为分类和聚类开发的一些软件中使用了Weka。我不是数据挖掘的专家,但是评估它和其他一些产品的团队当然知道他们的东西,并且通常习惯使用非常昂贵的现成产品。

根据2007年,2008年和2009年的年度KDnuggets民意调查,RapidMiner是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案: KDnuggets Data Mining Tool Poll 2009

RapidMiner是开源的,100%是Java,RapidMiner比Weka更灵活,功能更强大。

您真的应该查看Orange数据挖掘工具包。它带有拖放gui和Python API。

我使用自己用Java开发的软件,专门从事交易数据库或序列数据库的频繁模式和关联规则挖掘:

http://www.philippe-fournier-viger.com/spmf/

它提供了46种算法,包括一些在任何其他流行的数据挖掘软件中都找不到的算法。有GUI版本和源代码版本。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top