我们可以想象,我们可以构建一个统计表,在某些英语文本或书中使用了多少单词。我们可以在库中收集每个文本/书的统计信息。将这些统计数据彼此比较的最简单方法是什么?我们如何找到具有非常相似词典的文本组/群集?

有帮助吗?

解决方案

首先,您需要使词典正常化(即确保两个词典都有 相同的 词汇)。

然后,您可以使用类似指标 地狱者距离 或者 余弦相似性 比较两个词典。

研究机器学习包,例如 weka.

这本书 是机器学习的绝佳来源,您可能会发现它有用。

其他提示

首先,我会看到Lucene(http://lucene.apache.org/java/docs/index.html)提供的内容。之后,您需要使用机器学习方法并查看 http://en.wikipedia.org/wiki/information_retrieval.

您可以考虑Kullback Leibler距离。作为参考,请参见Cover和Thomas的第18页:

第2章,封面和托马斯

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top