Domanda

Sono abbastanza buono con Python, in modo pseudo-codice sarà sufficiente quando i dettagli sono banali. Si prega di farmi iniziare il compito - come si fa andare su di strisciare la rete per gli indirizzi di posta lumaca di chiese nel mio stato. Una volta che ho un uno di linea, ad esempio "123 Old West Road # 3 Old Lyme Città MD 01234", probabilmente posso analizzare in Città, Provincia, Via, numero, apt con abbastanza prove ed errori. Il mio problema è - se uso le pagine bianche in linea, quindi come faccio a trattare con tutte le cianfrusaglie HTML, tabelle HTML, annunci, ecc? Non penso che ho bisogno di loro numero di telefono, ma non farà male - posso sempre buttare fuori una volta analizzato. Anche se la soluzione è a metà manuale (come ad esempio Salva in pdf, quindi aprire acrobata, salvare come testo) - potrei essere felice con lui ancora. Grazie! Diamine, io voglio nemmeno accettare frammenti di Perl - posso tradurre io stesso

.
È stato utile?

Soluzione

Si potrebbe utilizzare Mechanize . Si tratta di una libreria Python che simula un browser, quindi si può strisciare attraverso le pagine bianche (in modo simile a ciò che si fa manualmente).

Al fine di affrontare il pitone 'html spazzatura' ha una libreria anche per questo: BeautifulSoup E 'un bel modo per ottenere i dati che si desidera fuori di HTML (ovviamente presuppone che sa un po' di HTML, come si avrà ancora per navigare l'albero di analisi).

Aggiornamento: Come alla tua domanda di follow-up su come scegliere attraverso più pagine. Mechanize è una libreria di fare proprio questo. Date un'occhiata più da vicino i loro esempi, esp. il metodo follow_link. Come ho già detto che simula un browser, in modo da 'click' può essere realizzato rapidamente in Python.

Altri suggerimenti

Prova lynx --dump <url> per scaricare le pagine web. Tutti i tag HTML fastidiosi verranno eliminati dal l'uscita, e tutti i link dalla pagina verranno visualizzati insieme.

Che cosa si sta cercando di fare è chiamato Raschiare o web scraping.

Se fai alcune ricerche su python e raschiando , è possibile trovare un elenco di noreferrer strumenti che sarà di aiuto.

(non ho mai usato Scrapy, ma è sito sembra promettente:)

Beautiful Soup è una bazzecola. Ecco un sito si potrebbe iniziare a http://www.churchangel.com/ . Hanno una lista enorme e la formattazione è molto regolare - traduzione: facile da installare BSoup raschiare

.

script Python potrebbero non essere lo strumento migliore per questo lavoro, se siete solo alla ricerca di indirizzi delle chiese in un'area geografica.

Il censimento degli Stati Uniti fornisce una serie di dati di chiese per l'utilizzo con sistemi di informazione geografica. Se trovare tutte le x in una zona spaziale è un problema ricorrente, investire in apprendimento di una GIS. Poi si può portare le vostre abilità Python esercitate su molti compiti geografiche.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top