英语文本词典比较

https://stackoverflow.com/questions/4771679

22-10-2019
|

题

我们可以想象，我们可以构建一个统计表，在某些英语文本或书中使用了多少单词。我们可以在库中收集每个文本/书的统计信息。将这些统计数据彼此比较的最简单方法是什么？我们如何找到具有非常相似词典的文本组/群集？

解决方案

首先，您需要使词典正常化（即确保两个词典都有 相同的 词汇）。

然后，您可以使用类似指标地狱者距离或者余弦相似性比较两个词典。

研究机器学习包，例如 weka.

这本书是机器学习的绝佳来源，您可能会发现它有用。

其他提示

首先，我会看到Lucene（http://lucene.apache.org/java/docs/index.html）提供的内容。之后，您需要使用机器学习方法并查看 http://en.wikipedia.org/wiki/information_retrieval.

您可以考虑Kullback Leibler距离。作为参考，请参见Cover和Thomas的第18页：

第2章，封面和托马斯

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow