문제

"깨진"URL을 고치기위한 라이브러리를 알고 있습니까? 다음과 같은 URL을 열 때

http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff

urllib2.urlopen은 질식하고 나에게 httperror 트레이스 백을 제공합니다. 이런 종류의 것들을 고칠 수있는 도서관을 아는 사람이 있습니까?

도움이 되었습니까?

해결책

또한보십시오 이 질문.

다른 팁

...와 같은 것은 어떻습니까? :

import re
import urlparse

urls = '''
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
'''.split()

def main():
  for u in urls:
    pieces = list(urlparse.urlparse(u))
    pieces[2] = re.sub(r'^[./]*', '/', pieces[2])
    pieces[-1] = ''
    print urlparse.urlunparse(pieces)

main()

원하는대로 방출됩니다.

http://www.domain.com/page.html
http://www.domain.com/page.html
http://www.domain.com/page.html

내가 올바르게 이해한다면 당신의 요구와 거의 일치하는 것처럼 보일 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top