通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本
-
18-09-2019 - |
题
我正在爬取新闻网站,想要提取新闻标题、新闻摘要(第一段)等
我插入了 webkit 解析器代码,以树状方式轻松导航网页。为了消除导航和其他非新闻内容,我采用文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法来比较来自同一网站的各种文章的文本,这会导致相似的文本被消除。这给了我减去常见导航内容等的内容。
尽管采用了上述方法,我在最终文本中仍然收到了相当多的垃圾。这会导致提取不正确的新闻摘要。错误率为十分之五,即50%。错误如
你可以吗
建议提取纯内容的替代策略,
学习自然语言处理是否有助于从这些文章中提取正确的摘要?
您将如何解决上述问题?
这些有相同的研究论文吗?
问候
安库尔·古普塔
解决方案
对于问题(1),我不确定。我以前没有这样做过。也许其他答案之一会有所帮助。
对于问题(2),自动创建摘要并不是一个成熟的领域。它通常被称为“句子选择”,因为现在典型的方法是只选择整个句子。
对于问题(3),从机器学习创建摘要的基本方法是:
- 创建现有摘要的语料库
- 以有用的方式注释摘要。例如,您可能想要指出是否选择了原文中的每个句子以及为什么(或为什么不选择)。
- 在语料库上训练某种分类器,然后用它对新文章中的句子进行分类。
我最喜欢的机器学习参考文献是 Tom Mitchell 的 机器学习. 。它列出了实现步骤(3)的多种方法。
对于问题(4),我确信有几篇论文,因为我的导师去年提到过,但我不知道从哪里开始,因为我不是该领域的专家。
其他提示
你可以看看我的 锅炉管 在 Google 代码上进行项目,并使用 Google AppEngine 上的实时网络应用程序(从那里链接)在您选择的页面上对其进行测试。
我正在研究这个领域,并撰写了一些关于从 HTML 页面中提取内容/样板文件的论文。例如,请参阅“使用浅文本功能的样板检测”并观看 VideoLectures.net 上的相应视频。本文应该让您对这一领域的最新技术有一个很好的概述。
干杯,
基督教
我不知道它是如何工作的,但检查一下可读性。它完全符合您的要求。