题
我们可以想象,我们可以构建一个统计表,在某些英语文本或书中使用了多少单词。我们可以在库中收集每个文本/书的统计信息。将这些统计数据彼此比较的最简单方法是什么?我们如何找到具有非常相似词典的文本组/群集?
其他提示
首先,我会看到Lucene(http://lucene.apache.org/java/docs/index.html)提供的内容。之后,您需要使用机器学习方法并查看 http://en.wikipedia.org/wiki/information_retrieval.
您可以考虑Kullback Leibler距离。作为参考,请参见Cover和Thomas的第18页:
不隶属于 StackOverflow