修复破碎的网址

https://stackoverflow.com/questions/1436382

07-07-2019
|

题

有没有人知道用于修复“破损”的库？网址。当我尝试打开诸如

之类的网址时

http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff

urllib2.urlopen chokes并给我一个HTTPError回溯。有没有人知道可以解决这些问题的图书馆？

解决方案

另请参阅此问题。

其他提示

像......这样的事情：

import re
import urlparse

urls = '''
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
'''.split()

def main():
  for u in urls:
    pieces = list(urlparse.urlparse(u))
    pieces[2] = re.sub(r'^[./]*', '/', pieces[2])
    pieces[-1] = ''
    print urlparse.urlunparse(pieces)

main()

它确实会发出，如你所愿：

http://www.domain.com/page.html
http://www.domain.com/page.html
http://www.domain.com/page.html

如果我理解正确的话，

似乎大致符合您的需求。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow