Domanda

Vorrei sapere qual è la migliore libreria iapri-source per la scansione e l'analisi siti web. Un esempio potrebbe essere un cingolato agenzie di proprietà, in cui vorrei prendere informazioni da un certo numero di siti e di aggregare nel mio sito. Per questo ho bisogno di strisciare i siti ed estrarre gli annunci immobiliari.

È stato utile?

Soluzione

Faccio un sacco di raschiatura, utilizzando ottimi pacchetti python urllib2 , mechanize e BeautifulSoup .

Inoltre suggerisco di guardare lxml e Scrapy , anche se io non li uso attualmente (ancora in programma di provare Scrapy ).

lingua

Perl ha anche ottime strutture per raschiare.

Altri suggerimenti

PHP / CURL è una combinazione molto potente, soprattutto se si desidera utilizzare i risultati direttamente in una pagina web ...

In comune con il signor Morozov che faccio un po 'di raschiare troppo, principalmente luoghi di lavoro. Non ho mai dovuto ricorrere meccanizzare, se questo aiuta qualunque. BeautifulSoup in combinazione con urllib2 sono sempre stati sufficienti.

Ho usato lxml, che è grande. Tuttavia, io credo che non può essere stato disponibile con Google Apps a pochi mesi fa, quando l'ho provato, se avete bisogno di questo.

I miei ringraziamenti vanno a Mr Morozov per menzionare Scrapy. Non aveva mai sentito parlare.

Inoltre Scrapy, si dovrebbe anche guardare Parselets

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top