Escrevendo rastreador que permanecer ligado com qualquer servidor

https://stackoverflow.com/questions/1804258

05-07-2019
|

Pergunta

Eu estou escrevendo um rastreador. Uma vez que após os logs rastreador em um site que eu quero fazer o rastreador para "ficar-sempre-logged-in". Como eu posso fazer isso? É um cliente (como navegador, rastreador etc.,) fazer um servidor de obedecer a esta regra? Este cenário pode ocorrer quando o servidor permite logins limitados em dia.

Solução

"registado no estado" é geralmente representado por cookies. Então, o que a sua tem a fazer é para armazenar as informações do cookie enviado por esse servidor no login, em seguida, enviar esse cookie com cada um de seus pedidos subsequentes (como observado por Aiden Bell, em sua mensagem, THX).

Veja também esta pergunta:

How to "keep-alive" com cookielib e httplib em python ?

Um artigo mais abrangente sobre como implementá-lo:

http://www.voidspace.org.uk/python/articles /cookielib.shtml

Os exemplos mais simples são na parte inferior desta página manual:

https://docs.python.org/library/cookielib.html

Você também pode usar um navegador normal (como o Firefox) para efetuar login manualmente. Então você vai ser capaz de salvar o cookie do que o navegador e usar isso em seu rastreador. Mas esses biscoitos são geralmente válida apenas por um tempo limitado, por isso não é uma solução de longo prazo totalmente automatizado. Ele pode ser bastante útil para transferir o conteúdo de um site, uma vez, no entanto.

UPDATE:

Eu apenas encontrei outra ferramenta interessante em uma recente pergunta:

http://www.scrapy.org

Ele também pode fazer tais login baseado cookie:

http: // doc .scrapy.org / tópicos / request-resposta.html # tópicos de solicitação-resposta-ref-request-userlogin

A pergunta que eu mencionei é aqui:

Scrapy domain_name de aranha

Espero que isso ajude.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow