Arreglando urls rotas

https://stackoverflow.com/questions/1436382

07-07-2019
|

Pregunta

¿Alguien sabe de una biblioteca para arreglar " roto " urls Cuando intento abrir una url como

http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff

urllib2.urlopen se ahoga y me da un rastreo HTTPError. ¿Alguien sabe de una biblioteca que pueda arreglar este tipo de cosas?

Solución

Consulte también esta pregunta .

Otros consejos

¿Qué pasa con algo como ...:

import re
import urlparse

urls = '''
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
'''.split()

def main():
  for u in urls:
    pieces = list(urlparse.urlparse(u))
    pieces[2] = re.sub(r'^[./]*', '/', pieces[2])
    pieces[-1] = ''
    print urlparse.urlunparse(pieces)

main()

emite, como lo desee:

http://www.domain.com/page.html
http://www.domain.com/page.html
http://www.domain.com/page.html

y parecería coincidir aproximadamente con sus necesidades, si las entendiera correctamente.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow