Pregunta

Estoy escribiendo un rastreador. Una vez después de que el rastreador inicie sesión en un sitio web, deseo que el rastreador permanezca "permanentemente conectado". ¿Cómo puedo hacer eso? ¿Un cliente (como navegador, rastreador, etc.) crea un servidor para obedecer esta regla? Este escenario podría ocurrir cuando el servidor permita inicios de sesión limitados en un día.

¿Fue útil?

Solución

" Estado de inicio de sesión " Suele estar representado por cookies. Entonces, lo que debe hacer es almacenar la información de la cookie enviada por ese servidor al iniciar sesión, y luego enviar esa cookie con cada una de sus solicitudes posteriores (como lo señaló Aiden Bell en su mensaje, thx).

Véase también esta pregunta:

Cómo " keep-alive " ¿Con cookielib y httplib en python?

Un artículo más completo sobre cómo implementarlo:

http://www.voidspace.org.uk/python/articles /cookielib.shtml

Los ejemplos más simples se encuentran al final de esta página del manual:

https://docs.python.org/library/cookielib.html

También puede usar un navegador normal (como Firefox) para iniciar sesión manualmente. Entonces podrá guardar la cookie de ese navegador y usarla en su rastreador. Pero tales cookies son generalmente válidas solo por un tiempo limitado, por lo que no es una solución totalmente automatizada a largo plazo. Sin embargo, puede ser bastante útil para descargar contenido de un sitio web una vez.

ACTUALIZAR:

Acabo de encontrar otra herramienta interesante en una pregunta reciente:

http://www.scrapy.org

También puede hacer dicho inicio de sesión basado en cookies:

http: // doc .scrapy.org / topics / request-response.html # topics-request-response-ref-request-userlogin

La pregunta que mencioné está aquí:

Scrapy domain_name para spider

Espero que esto ayude.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top