新闻聚类

题

如何类似于谷歌新闻和Techmeme的集群新闻项目？是否有任何众所周知的算法来实现这一目标？

感谢您的帮助。

预先感谢。

解决方案

基于内容进行聚类文本一个相当普遍的方法是使用主成分分析的字向量（n维，其中每一个可能的字表示一个维度并且在每个方向上的大小的矢量，每个矢量，是词的出现次数该特定文章中），随后只是一个简单的聚类诸如K均值

其他提示

的算法基础是凝聚聚类或类似的东西。但也有一些最重要的是启发式的。例如，向量空间可靠地包括的单词和短语（字的n-gram）的。限制在严格的时间内搜索也是非常重要的。和标识姓名，重量更标题和段落标题也是关键部分。

在一个切向相关的注释。如果你有兴趣在寻找近重复的文章则有许多更简单的实现方式，如所描述的的此处

有几种不同的方式来做到这一点。该标准是做一个分析“词袋”（加权TF-IDF），然后执行余弦相似度和k-均值。

关于它的伟大的事情是： 1）这是增量，这是伟大的消息。随着标准k-手段，你需要有整个数据集。新闻，你平时有到达随着时间的推移文章。增量算法解决。 2）它的词组为主。因此，它依赖于短语，而不是空谈。

最近，已经出现了使用语义含义的词语，而不是技术（例如，通过从每个制品提取维基百科或DBpedia中的概念，以及使用的该代替只是个字）。

许可以下： CC-BY-SA 和归因