Grabbing Text von einer Webseite

https://stackoverflow.com/questions/419260

03-07-2019
|

Frage

Ich möchte ein Programm schreiben, die Bushaltestelle mal finden und meine persönliche Webseite entsprechend aktualisieren.

Wenn ich dies manuell tun würde ich

Besuchen Sie www.calgarytransit.com
Geben Sie eine Stop-Nummer. ie) 9510
Klicken Sie auf die Schaltfläche "Next Bus"

Die Ergebnisse sehen können wie folgt aus:

10: 16p Strecke 154
  10: 46p Strecke 154
  11: 32p Strecke 154

Wenn ich die Zeit und Routen packt habe, dann werde ich meine Homepage entsprechend aktualisieren.

Ich habe keine Ahnung, wo ich anfangen soll. Ich weiß, diddly Hocke über Web-Programmierung, sondern kann einige C und Python schreiben. Was sind einige Themen / Bibliotheken Ich sehe in könnte?

Lösung

Schöne Suppe ist eine Python-Bibliothek für das Parsen entworfen Webseiten. Zwischen ihm und urllib2 ( urllib.request in Python 3) Sie sollten in der Lage sein, herauszufinden, was Sie brauchen.

Andere Tipps

Was Sie fragen über wird als „Screen Scraping“. Ich bin sicher, wenn Sie Google um Sie herum ein paar Sachen zu finden, aber die Kernidee ist, dass Sie eine Verbindung zur Webseite öffnen möchten, schlürfen im HTML, analysieren sie und identifizieren die Stücke Sie wollen.

Python Wiki eine gute Menge Sachen auf diese hat.

Da Sie in C schreiben, möchten Sie vielleicht prüfen, cURL ; insbesondere einen Blick auf libcurl. Es ist toll.

Sie können die mechanize Bibliothek verwenden, die für Python http://wwwsearch.sourceforge.net/mechanize verfügbar ist /

Sie können Perl verwenden, um Sie Ihre Aufgabe zu helfen abzuschließen.

use strict;
use LWP;

my $browser = LWP::UserAgent->new;

my $responce = $browser->get("http://google.com");
print $responce->content;

Ihre Antwort-Objekt kann Ihnen sagen, wenn es so gut wie der Rückkehr den Inhalt der page.You suceeded auch diese gleiche Bibliothek verwenden können, um eine Seite zu schreiben.

Hier finden Sie einige Dokumentation. http://metacpan.org/pod/LWP::UserAgent

Das Website bietet nicht eine API für Sie die entsprechenden Daten in der Lage sein zu erhalten, die Sie benötigen. In diesem Fall müssen Sie die aktuelle HTML-Seite durch, zum Beispiel einer CURL-Anforderung zurückgegeben analysieren.

Das nennt man Web Schaben , und es hat sogar einen eigenen Wikipedia-Artikel wo Sie weitere Informationen finden.

Auch könnten Sie mehr Details in dieser SO Diskussion .

Solange das Layout der Webseite Ihres zu ‚Scrape‘ versuchen, regelmäßig ändern tut, sollen Sie die HTML mit jedem modernen Programmiersprache analysieren können.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow