Python 中的 HTML 解析器 [关闭]

题

使用Python文档我发现了 HTML解析器但我不知道要导入哪个库来使用它，我如何找到它（记住它没有在页面上说明）。

解决方案

尝试：

import HTMLParser

在Python 3.0中，HTMLPARSER模块已重命名为HTML.Parser您可以检查此信息这里

Python 3.0

import html.parser

Python 2.2 及以上版本

import HTMLParser

其他提示

你可能真的想要美丽汤, ，查看链接以获取示例。

但无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

我建议使用美丽的汤模块代替，它有良好的文档.

您可能感兴趣 lxml. 。它是一个单独的包并具有 C 组件，但速度最快。它还具有非常好的 API，允许您轻松列出 HTML 文档中的链接，或列出表单、清理 HTML 等等。它还具有解析格式不正确的 HTML 的功能（它是可配置的）。

你还应该看看 html5库对于 Python 来说，因为它尝试以非常类似于 Web 浏览器的方式解析 HTML，特别是在处理无效 HTML（当今 Web 中 90% 以上）时。

如果你想要速度，我不推荐 BeautifulSoup。lxml 速度快得多，如果默认解析器不起作用，您可以使用 lxml 的 BS soupparser。

对于现实世界的 HTML 处理，我建议美丽汤. 。它很棒，可以消除很多痛苦。安装很容易。

( 底部有一个示例链接http://docs.python.org/2/library/htmlparser.html) ，它不适用于原始的 python 或 python3。正如上面所说，它必须是 python2。

许可以下： CC-BY-SA 和归因