识别页面的主要内容

https://stackoverflow.com/questions/1220494

10-07-2019
|

题

鉴于HTML页面是文章较重的文章，我想识别并解析主要内容。

使用 http：//www.fivethirtyeight。以com / 2009/08 / chavismo-obama-and-monroe-doctrine.html 为例，我想识别div＃post-4438372351887392855，其中包含标题和文章。

我知道任何事情都不可能是完美的，或者100％的时间都在工作，但是有一种方法可以在合理的情况下给我预期的结果吗？

我目前的想法是迭代每个div，剥离标记，然后找到包含最多文本的最内层div。

此时，我刚刚开始，所以寻找输入我可以采用概念方法。或者，如果有什么东西，开源库会很好。

提前感谢您的见解。

解决方案

arc90的一些人用可读性书签完成了相当令人印象深刻的工作。。它似乎可以很好地找到“主要”内容 - 在您完美列出的页面上工作您可以查看他们评论良好的javascript（链接到书签中），但您可能希望联系开发人员以获取他们的想法和使用权限。

其他提示

用于主要内容提取的最完整的已编译资源列表是：

从html文档中提取文章文本
资源清单：文章从html文档中提取文本

请注意评论，因为有额外的提示。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow