Python의 HTML 파서 [닫기]

https://stackoverflow.com/questions/71151

09-06-2019
|

문제

Python 문서를 사용하여 다음을 찾았습니다. HTML 파서 하지만 그것을 사용하기 위해 어떤 라이브러리를 가져와야 할지 전혀 모르겠습니다. 이를 어떻게 알 수 있습니까? (페이지에 나와 있지 않다는 점을 염두에 두십시오).

해결책

노력하다:

import HTMLParser

Python 3.0에서 HTMLPARSER 모듈의 이름이 html.parser로 이름이 변경되었습니다. 여기

파이썬 3.0

import html.parser

파이썬 2.2 이상

import HTMLParser

다른 팁

당신은 아마도 정말로 원할 것입니다 아름다운수프, 예시를 보려면 링크를 확인하세요.

하지만 어쨌든

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

나는 사용하는 것이 좋습니다 아름다운 수프 대신 모듈이 있고 좋은 문서.

당신은 관심이있을 수 있습니다 lxml.별도의 패키지이며 C 구성 요소를 포함하지만 가장 빠릅니다.또한 HTML 문서의 링크를 쉽게 나열하거나 양식을 나열하고 HTML을 삭제하는 등의 작업을 쉽게 수행할 수 있는 매우 훌륭한 API도 있습니다.또한 형식이 올바르지 않은 HTML을 구문 분석하는 기능도 있습니다(구성 가능).

당신은 또한 봐야합니다 html5lib Python의 경우 특히 잘못된 HTML(현재 웹의 90% 이상)을 처리할 때 웹 브라우저와 매우 유사한 방식으로 HTML을 구문 분석하려고 시도합니다.

속도를 원한다면 BeautifulSoup를 권장하지 않습니다.lxml은 훨씬 더 빠르며 기본 파서가 작동하지 않으면 lxml의 BS 수프 파서로 돌아갈 수 있습니다.

실제 HTML 처리를 위해 권장합니다 아름다운수프.그것은 훌륭하고 많은 고통을 덜어줍니다.설치가 쉽습니다.

( 하단에 예제에 대한 링크가 있습니다.http://docs.python.org/2/library/htmlparser.html) , 원래 Python 또는 Python3에서는 작동하지 않습니다.상단에 적힌대로 python2 여야 합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow