En busca de una recomendación de un buen tutorial sobre las mejores prácticas para un proyecto raspado web? [cerrado]

StackOverflow https://stackoverflow.com/questions/684629

Pregunta

Necesito hacer un proyecto que involucra bastante extensa raspado web y estoy pensando en utilizar hpricot o sopa Hermosa (es decir, de Ruby o Python). Alguien ha encontrado un tutorial que ellos pensaban que era particularmente bueno sobre este tema que me ayudaría a empezar el proyecto con el pie derecho?

¿Fue útil?

Solución

Hay una excelente Railscasts episodio en ScrAPI.

Otros consejos

Dos de mis herramientas favoritas para Python raspado web son Scrapy y Mecanizar . Cada uno de estos proyectos tiene su propio tutorial y las mejores prácticas.

No es una herramienta, en realidad, pero una buena discusión es el libro de Michael Shrenk, webbots, arañas y screen scrapers .

El libro tiene éxito muy bien en su misión declarada: explicar cómo construir los robots web sencillas y operar en conformidad con las normas de la comunidad. No es todo lo que necesita saber, pero es la mejor carta de presentación que he visto. La atención se centra en simples, de un solo subproceso, bots. Hay una pequeña mención al uso de múltiples robots que almacenan datos en un repositorio central, pero no hay discusión de los temas involucrados en la escritura multi-hilo contra los robots o distribuidos que pueden procesar cientos de páginas por segundo.

Le recomiendo que lea este libro si usted está en todo interesado en escribir los robots web, incluso si usted no está familiarizado con la intención de utilizar o PHP. Pero asegúrese de no esperar más de las ofertas de libros.

Mira en el uso de lxml en lugar de BeautifulSoup. A pesar de su nombre, es también para analizar y raspando HTML. Es mucho, mucho más rápido que BeautifulSoup, e incluso se encarga de "roto" HTML mejor que BeautifulSoup (su pretensión de fama - lxml simplemente no es tan vocal sobre ella). Tiene una API de compatibilidad para BeautifulSoup también si usted no quiere aprender la API lxml.

Ian Blicking está de acuerdo .

No hay razón para usar BeautifulSoup más, a menos que esté en Google App Engine o algo donde todo lo que no puramente no está permitido Python.

Para Ruby, la Scrubyt raspado Web Toolkit es excelente. Aquí es una amplia introducción a ella, la cual recomendamos leer incluso si usted va a utilizar alguna otra herramienta.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top