Pregunta

Me gustaría saber cuál es la mejor biblioteca er a abrir-fuente para el rastreo y análisis de sitios web. Un ejemplo sería una agencia de propiedad de cadenas, donde te gustaría para tomar información de un número de sitios y agregarlos en mi propio sitio. Para esto necesito para rastrear los sitios y extraer los anuncios de propiedad.

¿Fue útil?

Solución

hago un montón de raspado, utilizando excelentes paquetes python urllib2 , mechanize y BeautifulSoup .

También sugiero mirar lxml y Scrapy , aunque yo no los uso actualmente (todavía la planificación de probar scrapy ).

idioma

Perl también tiene excelentes instalaciones para raspar.

Otros consejos

PHP / CURL es una combinación muy poderosa, especialmente si desea utilizar los resultados directamente en una página web ...

Al igual que el Sr. Morozov hago un poco de raspado también, principalmente en los lugares de trabajo. Nunca he tenido que recurrir a la mecanización, si eso ayuda a cualquiera. BeautifulSoup en combinación con urllib2 siempre han sido suficientes.

He utilizado lxml, que es grande. Sin embargo, creo que no puede haber sido disponible con las aplicaciones de Google hace unos meses cuando lo probé, si necesita eso.

Mi agradecimiento se deben a Sr. Morozov por mencionar Scrapy. No había oído hablar de él.

Además Scrapy, también se debe buscar en Parselets

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top