我有100的文件。我要特点,并获得一般意义上的什么主题是普遍存在。

该文件是纯文本。

我已经考虑使用工具(如谷歌台式搜索,但它太大,真的猜测是什么搜寻求和太耗费时间来执行足够的检索,以复盖整个组。

是否有任何免费提供的工具,群集中的大数据集的文件?

是否有任何这样的工具,可以想象这样的集群?

有帮助吗?

解决方案

对于一个基本的自然语言的方法,你可能代表每个文件作为一种矢量的基础上词语的频率,随后的集群的文件矢量使用贝叶斯或其他方法(SVM,k-装置等)。

对于相关的答案,看看这个 有点类似这样的问题.

其他提示

您需要考虑的是做自然语言处理工具。基本上,你可以很可靠地确定(使用统计工具)文档的语言(见的http:// en.wikipedia.org/wiki/N-gram )和话语(域看到 HTTP ://en.wikipedia.org/wiki/Support_vector_machine )。如果从维基百科开始有些工具应该是可用的。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top