我一直在努力学习文本挖掘等相关的东西在集体智慧领域。我有兴趣做一个应用程序,它会扫描通文档并显示页面上相关的帖子/文章。

什么算法(S)将是有益的检索所需信息?

由于

/ A

有帮助吗?

解决方案

一个简单的方法是计算在页面上的非公共字和它们的实例。多了一个字显示出来,更好的是在描述帖子的内容。然后,你可以用它来查找其他文章/帖子。

其他提示

可以使用资源描述框架(RDF)。 RDF基地包含结构化的知识和它们之间的连接。所以,你可以得到RDF记录文本的每一个字和它们连接图。与边缘和根节点(如果该图形是就像一棵树)的最大数量的节点将是指文档的主题。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top