我可以用什么算法来识别网页上的内容

题

我有一个网页在浏览器中加载了（即它的DOM和元素的定位都可以访问到我），我想找到块元素（或这些元素的排序列表），其中可能包含了最含量（如在文本的连续块）。我们的目标是排除的东西，如菜单，页眉，页脚等和

解决方案

其他提示

首先，如果你需要分析一个网页，我会用 HTMLAgilityPack 将它转化到一个XML。这将加速一切，将使你，用一个简单的XPath直接进入身体。

在这之后，你必须对所有的div（你可以从敏捷包列表中的所有的div元素）运行，并得到任何你想要的。

有一个简单的技术来做到这一点的基础上，分析了如何“嘈杂” HTML是，即，什么是标记来显示文本的通过一个HTML页面的比例。的简单的方法提取从任意HTML 有用的文本描述了这种特，给一些Python代码来说明。

比照。也是 HTML :: ContentExtractor 的Perl模块，它实现了这个想法。这将是有意义先清理的HTML，如果你想利用这一点，使用beautifulsoup。

我会建议在 Web内容清洁维生素Baisa论文，我认为他有一些代码，但我却无法找到一个链接它。还有一个讨论自然语言处理LingPipe博客非常相同的问题。