質問

「壊れた」を修正するためのライブラリを知っている人はいますか? urls。

などのURLを開こうとすると
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff

urllib2.urlopenはチョークして、HTTPErrorトレースバックを返します。このようなことを修正できるライブラリを知っている人はいますか?

役に立ちましたか?

解決

この質問も参照してください。

他のヒント

次のようなもの...:

import re
import urlparse

urls = '''
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
'''.split()

def main():
  for u in urls:
    pieces = list(urlparse.urlparse(u))
    pieces[2] = re.sub(r'^[./]*', '/', pieces[2])
    pieces[-1] = ''
    print urlparse.urlunparse(pieces)

main()

必要に応じて放出します:

http://www.domain.com/page.html
http://www.domain.com/page.html
http://www.domain.com/page.html

そして、私がそれらを正しく理解していれば、おおよそあなたのニーズに合っているように見えます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top