Cómo procesar de manera confiable los datos web en Python

https://stackoverflow.com/questions/5390752

28-10-2019
|

Pregunta

Estoy usando el siguiente código para obtener datos de un sitio web:

time_out = 4

def tryconnect(turl, timer=time_out, retries=10):
    urlopener = None
    sitefound = 1
    tried = 0
    while (sitefound != 0) and tried < retries:
        try:
            urlopener = urllib2.urlopen(turl, None, timer)
            sitefound = 0
        except urllib2.URLError:
            tried += 1
    if urlopener: return urlopener
    else: return None

[...]

urlopener = tryconnect('www.example.com')
if not urlopener:
    return None
try:
    for line in urlopener:
        do stuff
except httplib.IncompleteRead:
    print 'incomplete'
    return None
except socket.timeout:
    print 'socket'
    return None
return stuff

¿Hay alguna manera de manejar todas estas excepciones sin tener tanto código de Boilerplate cada vez?

¡Gracias!

Solución

También puede evitar algún código de horario en la primera función:

time_out = 4

def tryconnect(turl, timer=time_out, retries=10):
    for tried in xrange(retries):
        try:
            return urllib2.urlopen(turl, None, timer)
        except urllib2.URLError:
            pass
    return None

y en el segundo:

urlopener = tryconnect('www.example.com')
if urlopener:
    try:
        for line in urlopener:
            do stuff
    except (httplib.IncompleteRead, socket.timeout), e:
        print e
        return None
else:
    return None

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow