鉴于HTML页面是文章较重的文章,我想识别并解析主要内容。

使用 http://www.fivethirtyeight。以com / 2009/08 / chavismo-obama-and-monroe-doctrine.html 为例,我想识别div#post-4438372351887392855,其中包含标题和文章。

我知道任何事情都不可能是完美的,或者100%的时间都在工作,但是有一种方法可以在合理的情况下给我预期的结果吗?

我目前的想法是迭代每个div,剥离标记,然后找到包含最多文本的最内层div。

此时,我刚刚开始,所以寻找输入我可以采用概念方法。或者,如果有什么东西,开源库会很好。

提前感谢您的见解。

有帮助吗?

解决方案

arc90的一些人用可读性书签完成了相当令人印象深刻的工作。 。 它似乎可以很好地找到“主要”内容 - 在您完美列出的页面上工作 您可以查看他们评论良好的javascript(链接到书签中),但您可能希望联系开发人员以获取他们的想法和使用权限。

其他提示

用于主要内容提取的最完整的已编译资源列表是:

  1. 从html文档中提取文章文本
  2. 资源清单:文章从html文档中提取文本
  3. 请注意评论,因为有额外的提示。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top