Raspado de una página de un URL seguro que está utilizando posiblemente un identificador de sesión

https://stackoverflow.com/questions/2604914

25-09-2019
|

Pregunta

Como raspar una página como esta: https: / /www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0

Es seguro, y parece que requiere una referencia. No puedo conseguir cualquier cosa usando wget o httplib2.

Si vas a través de esta página, se obtiene una lista y funciona en un navegador, pero no la línea de comandos. https://www.procom.ca/jobsearch.aspx

Estoy interesado en ir a buscar la línea de comandos.

Solución

Como se sospecha, se requiere un árbitro. Estos trabajos:

   import urllib2
   urlopen = urllib2.urlopen
   Request = urllib2.Request
   url = 'https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0'
   headers =  {'Referer' : 'http://www.stackoverflow.com'}
   req = Request(url, None, headers)
   handle = urlopen(req)
   print handle.read()

Otros consejos

¿Qué datos son que el envío de POST o GET, recomiendo mirar a través de POST / GET mensajes en las caras de red Firebug, en esa página hay muchos valores ocultos que creo que son dependientes del tiempo y los cambios en cada carga de página y puede será válida una vez para la página de carga, obtener esos valores y enviarlos con mensajes POST por ejemplo, ver a estos

<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEwODIzNjMxMzEPFgIeEUdyaWRTb3J0RGlyZWN0aW9uCyo..." />

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow