Frage

Wie eine Seite wie diese kratzen: https: / /www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0

Es ist sicher, und es sieht aus wie eine Referrer erfordert. Ich kann nichts mit wget bekommen oder httplib2.

Wenn Sie über diese Seite gehen, erhalten Sie eine Liste und es funktioniert auf einem Browser aber nicht die Befehlszeile. https://www.procom.ca/jobsearch.aspx

Ich interessiere mich für Kommandozeile abgerufen werden.

War es hilfreich?

Lösung

Wie Sie den Verdacht haben, bedarf es einer referer. Dies funktioniert:

   import urllib2
   urlopen = urllib2.urlopen
   Request = urllib2.Request
   url = 'https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0'
   headers =  {'Referer' : 'http://www.stackoverflow.com'}
   req = Request(url, None, headers)
   handle = urlopen(req)
   print handle.read()

Andere Tipps

Welche Daten sind Sie in POST zu senden oder erhalten, würde ich Blick durch die POST / GET-Nachrichten in Firebug Net Panel empfehlen, in dieser Seite gibt es viele versteckte Werte, die ich glaube, sind zeitabhängig und Änderungen auf jeder Seite zu laden und kann einmal so Last Seite gültig sein, diese Werte erhalten und sie mit POST-Meldungen zB senden siehe diese

<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEwODIzNjMxMzEPFgIeEUdyaWRTb3J0RGlyZWN0aW9uCyo..." />
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top