HTML-парсер в Python [закрыто]

https://stackoverflow.com/questions/71151

09-06-2019
|

Вопрос

Используя документацию Python, я нашел HTML-парсер но я понятия не имею, какую библиотеку импортировать, чтобы ее использовать, как мне это узнать (имея в виду, что на странице об этом не сказано).

Решение

Пытаться:

import HTMLParser

В Python 3.0 модуль HTMLParser был переименован в HTML.Parser, вы можете проверить об этом здесь

Питон 3.0

import html.parser

Питон 2.2 и выше

import HTMLParser

Другие советы

Вы, наверное, очень хотите КрасиваяСуп, проверьте ссылку на пример.

Но в любом случае

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Я бы рекомендовал использовать Красивый суп вместо этого модуль, и он имеет хорошая документация.

Возможно, вас заинтересует lxml.Это отдельный пакет, содержащий компоненты C, но он самый быстрый.Он также имеет очень хороший API, позволяющий легко перечислять ссылки в HTML-документах или формах списков, очищать HTML и многое другое.Он также имеет возможности анализировать неправильно сформированный HTML (это настраивается).

Вам также следует посмотреть html5lib для Python, поскольку он пытается проанализировать HTML способом, очень похожим на то, что делают веб-браузеры, особенно при работе с недопустимым HTML (а это более 90% современной сети).

Я не рекомендую BeautifulSoup, если вам нужна скорость.lxml работает намного быстрее, и вы можете вернуться к анализатору супа BS lxml, если анализатор по умолчанию не работает.

Для реальной обработки HTML я бы рекомендовал КрасиваяСуп.Это здорово и снимает большую часть боли.Установка проста.

Внизу есть ссылка на пример (http://docs.python.org/2/library/htmlparser.html) он просто не работает с оригинальным Python или Python3.Это должен быть python2, как написано вверху.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow