質問
「壊れた」を修正するためのライブラリを知っている人はいますか? urls。
などのURLを開こうとするとhttp://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
urllib2.urlopenはチョークして、HTTPErrorトレースバックを返します。このようなことを修正できるライブラリを知っている人はいますか?
解決
この質問も参照してください。
他のヒント
次のようなもの...:
import re
import urlparse
urls = '''
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
'''.split()
def main():
for u in urls:
pieces = list(urlparse.urlparse(u))
pieces[2] = re.sub(r'^[./]*', '/', pieces[2])
pieces[-1] = ''
print urlparse.urlunparse(pieces)
main()
必要に応じて放出します:
http://www.domain.com/page.html
http://www.domain.com/page.html
http://www.domain.com/page.html
そして、私がそれらを正しく理解していれば、おおよそあなたのニーズに合っているように見えます。
所属していません StackOverflow