使用Python文档我发现了 HTML解析器 但我不知道要导入哪个库来使用它,我如何找到它(记住它没有在页面上说明)。

有帮助吗?

解决方案

尝试:

import HTMLParser

在Python 3.0中,HTMLPARSER模块已重命名为HTML.Parser您可以检查此信息 这里

Python 3.0

import html.parser

Python 2.2 及以上版本

import HTMLParser

其他提示

你可能真的想要 美丽汤, ,查看链接以获取示例。

但无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

我建议使用 美丽的汤 模块代替,它有 良好的文档.

您可能感兴趣 lxml. 。它是一个单独的包并具有 C 组件,但速度最快。它还具有非常好的 API,允许您轻松列出 HTML 文档中的链接,或列出表单、清理 HTML 等等。它还具有解析格式不正确的 HTML 的功能(它是可配置的)。

你还应该看看 html5库 对于 Python 来说,因为它尝试以非常类似于 Web 浏览器的方式解析 HTML,特别是在处理无效 HTML(当今 Web 中 90% 以上)时。

如果你想要速度,我不推荐 BeautifulSoup。lxml 速度快得多,如果默认解析器不起作用,您可以使用 lxml 的 BS soupparser。

对于现实世界的 HTML 处理,我建议 美丽汤. 。它很棒,可以消除很多痛苦。安装很容易。

( 底部有一个示例链接http://docs.python.org/2/library/htmlparser.html) ,它不适用于原始的 python 或 python3。正如上面所说,它必须是 python2。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top