题
使用Python文档我发现了 HTML解析器 但我不知道要导入哪个库来使用它,我如何找到它(记住它没有在页面上说明)。
解决方案
尝试:
import HTMLParser
在Python 3.0中,HTMLPARSER模块已重命名为HTML.Parser您可以检查此信息 这里
Python 3.0
import html.parser
Python 2.2 及以上版本
import HTMLParser
其他提示
你可能真的想要 美丽汤, ,查看链接以获取示例。
但无论如何
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()
您可能感兴趣 lxml. 。它是一个单独的包并具有 C 组件,但速度最快。它还具有非常好的 API,允许您轻松列出 HTML 文档中的链接,或列出表单、清理 HTML 等等。它还具有解析格式不正确的 HTML 的功能(它是可配置的)。
你还应该看看 html5库 对于 Python 来说,因为它尝试以非常类似于 Web 浏览器的方式解析 HTML,特别是在处理无效 HTML(当今 Web 中 90% 以上)时。
如果你想要速度,我不推荐 BeautifulSoup。lxml 速度快得多,如果默认解析器不起作用,您可以使用 lxml 的 BS soupparser。
对于现实世界的 HTML 处理,我建议 美丽汤. 。它很棒,可以消除很多痛苦。安装很容易。
( 底部有一个示例链接http://docs.python.org/2/library/htmlparser.html) ,它不适用于原始的 python 或 python3。正如上面所说,它必须是 python2。
不隶属于 StackOverflow