我怎么可视化的一个大型的文档？

题

我有100的文件。我要特点，并获得一般意义上的什么主题是普遍存在。

该文件是纯文本。

我已经考虑使用工具（如谷歌台式搜索，但它太大，真的猜测是什么搜寻求和太耗费时间来执行足够的检索，以复盖整个组。

是否有任何免费提供的工具，群集中的大数据集的文件？

是否有任何这样的工具，可以想象这样的集群？

解决方案

对于一个基本的自然语言的方法，你可能代表每个文件作为一种矢量的基础上词语的频率，随后的集群的文件矢量使用贝叶斯或其他方法(SVM，k-装置等)。

对于相关的答案，看看这个有点类似这样的问题.

其他提示

您需要考虑的是做自然语言处理工具。基本上，你可以很可靠地确定（使用统计工具）文档的语言（见的http：// en.wikipedia.org/wiki/N-gram ）和话语（域看到 HTTP ：//en.wikipedia.org/wiki/Support_vector_machine ）。如果从维基百科开始有些工具应该是可用的。

许可以下： CC-BY-SA 和归因