Schaben eine Seite aus einer sicheren URL, die möglicherweise eine Sitzungs-ID verwendet
-
25-09-2019 - |
Frage
Wie eine Seite wie diese kratzen: https: / /www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0
Es ist sicher, und es sieht aus wie eine Referrer erfordert. Ich kann nichts mit wget bekommen oder httplib2.
Wenn Sie über diese Seite gehen, erhalten Sie eine Liste und es funktioniert auf einem Browser aber nicht die Befehlszeile. https://www.procom.ca/jobsearch.aspx
Ich interessiere mich für Kommandozeile abgerufen werden.
Lösung
Wie Sie den Verdacht haben, bedarf es einer referer. Dies funktioniert:
import urllib2
urlopen = urllib2.urlopen
Request = urllib2.Request
url = 'https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0'
headers = {'Referer' : 'http://www.stackoverflow.com'}
req = Request(url, None, headers)
handle = urlopen(req)
print handle.read()
Andere Tipps
Welche Daten sind Sie in POST zu senden oder erhalten, würde ich Blick durch die POST / GET-Nachrichten in Firebug Net Panel empfehlen, in dieser Seite gibt es viele versteckte Werte, die ich glaube, sind zeitabhängig und Änderungen auf jeder Seite zu laden und kann einmal so Last Seite gültig sein, diese Werte erhalten und sie mit POST-Meldungen zB senden siehe diese
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEwODIzNjMxMzEPFgIeEUdyaWRTb3J0RGlyZWN0aW9uCyo..." />