문제
"깨진"URL을 고치기위한 라이브러리를 알고 있습니까? 다음과 같은 URL을 열 때
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
urllib2.urlopen은 질식하고 나에게 httperror 트레이스 백을 제공합니다. 이런 종류의 것들을 고칠 수있는 도서관을 아는 사람이 있습니까?
해결책
또한보십시오 이 질문.
다른 팁
...와 같은 것은 어떻습니까? :
import re
import urlparse
urls = '''
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
'''.split()
def main():
for u in urls:
pieces = list(urlparse.urlparse(u))
pieces[2] = re.sub(r'^[./]*', '/', pieces[2])
pieces[-1] = ''
print urlparse.urlunparse(pieces)
main()
원하는대로 방출됩니다.
http://www.domain.com/page.html
http://www.domain.com/page.html
http://www.domain.com/page.html
내가 올바르게 이해한다면 당신의 요구와 거의 일치하는 것처럼 보일 것입니다.
제휴하지 않습니다 StackOverflow