Frage

Ich bin ziemlich gut mit Python, so pseudo-Code genügt, wenn Details trivial sind. Bitte setzen Sie sich mich auf die Aufgabe gestartet - wie gehen über das Netz für die Post-Adressen von Kirchen in meinem Zustand kriecht. Sobald ich einen Einzeiler wie „123 Old West Road # 3 Old Lyme-Stadt MD 01234“ habe, kann ich es wahrscheinlich in der Stadt analysieren, Staat, Straße, Hausnummer, apt mit genug Versuch und Irrtum. Mein Problem ist, - wenn ich online weiße Seiten verwenden, dann wie kann ich mit allen umgehen die HTML-Junk, HTML-Tabellen, Anzeigen, etc? Ich glaube nicht, dass ich ihre Telefonnummer benötigen, aber es wird nicht weh tun - ich immer es werfen kann einmal analysiert. Selbst wenn Ihre Lösung Halb Handbuch ist (zB als PDF speichern, öffnen Sie dann Akrobat, speichern als Text) - ich könnte noch mit ihm glücklich sein. Vielen Dank! Heck, ich werde sogar Perl-Schnipsel akzeptieren - ich kann sie mir übersetzen

.
War es hilfreich?

Lösung

könnten Sie mechanize . Es ist eine Python-Bibliothek, die einen Browser simuliert, so dass Sie durch die weißen Seiten kriechen können (ähnlich zu dem, was Sie tun, manuell).

Um mit dem 'html Junk' Python zu tun hat, eine Bibliothek für das auch: BeautifulSoup Es ist eine schöne Möglichkeit, die gewünschten Daten aus HTML zu bekommen (es natürlich vorausgesetzt, dass Sie ein wenig über HTML wissen, wie Sie immer noch den Parsing-Baum navigieren müssen).

Update: In Bezug auf Ihre weitere Frage auf, wie durch mehrere Seiten klicken. mechanize ist eine Bibliothek, genau das zu tun. Nehmen Sie einen näheren Blick auf ihre Beispiele, esp. die follow_link Methode. Wie gesagt es einen Browser simuliert, kann so ‚Klick‘ schnell in Python realisiert werden.

Andere Tipps

Versuchen lynx --dump <url> die Web-Seiten zum Download bereit. Alle die störenden HTML-Tags werden aus der Ausgabe entfernt werden, und alle Links auf der Seite erscheinen zusammen.

Was Sie versuchen zu tun ist, genannt Scraping oder Web-scraping.

Wenn Sie das tun einige sucht auf python und Schaben Sie eine Liste von Tools die Ihnen helfen.

(Ich habe nie gebrauchten scrapy, aber es Website sieht vielversprechend aus:)

Schöne Suppe ist ein Klacks. Hier ist eine Website, die Sie beginnen können unter http://www.churchangel.com/ . Sie haben eine riesige Liste und die Formatierung ist sehr regelmäßig - Übersetzung: einfach zu installieren BSoup zu schaben

.

Python-Skripte möglicherweise nicht das beste Werkzeug für diesen Job sein, wenn Sie nur für Adressen von Kirchen in einem geographischen Gebiet suchen.

Die US-Volkszählung liefert einen Datensatz von Kirchen für die Verwendung mit geografischen Informationssystemen. Wenn die Suche nach all x in einem räumlichen Bereich ein wiederkehrendes Problem ist, investiert GIS in dem Lernen. Dann können Sie Ihre Python Fähigkeiten zu tragen auf vielen geographischen Aufgaben bringen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top