Python으로 HTML에서 악센트가있는 문자를 얻습니다
-
21-12-2019 - |
문제
웹 페이지 소스에서 i : abac % C3 % A0이 아벨 (크롬)이 abacà로 표시되는 단어를 볼 수 있습니다.
이제 Urllib2를 사용하여 페이지를 다운로드했으며 Python (2.7 OS X의 2.7)으로 페이지 소스를 구문 분석하고 있습니다. 일부 키워드를 얻으려면 다음을 수행합니다. 그러나 % C3 % A0 대신 악센트가있는 문자를 갖고 싶습니다. str.decode를 사용합니다.( "UTF8")는 작동하지 않았습니다 (나는 \ xc3 \ xa0 UTF8 코드처럼 보였기 때문에 그것을 시도했다).
사전 내에 악센트가있는 단어를 추가해야합니까?
HTML 페이지에서는 소스
에서 인코딩을 표시하지 않습니다.감사합니다
해결책
문자는 URL 인코딩되었습니다 (URL의 일부). urllib.unquote .
제휴하지 않습니다 StackOverflow