Pregunta

Necesito escribir un programa para raspar foros.

¿Debo escribir el programa en Python usando el marco de Scrapy o debería usar PHP Curl? ¿También hay un PHP equivalente a Scrarphy?

Gracias

¿Fue útil?

Solución

Elegiría Python debido a las enlaces superiores de libxml2, específicamente cosas como lxml.html y pyquery. Scrapy tiene sus propias fijaciones libxml2, no las he visto para probarlas, aunque escapritar la documentación de Scrapy no me dejó muy impresionado (he hecho mucho raspado solo usando estos analizadores y codificación manual). Con cualquiera de estos obtienes un analizador HTML verdaderamente superior, consultando a través de XPATH, y con LXML.HTML y Pyquery (también construido en LXML) obtienes selectores CSS.

Si está haciendo un pequeño trabajo raspando un foro, omitiría un marco de raspado y lo haré a mano; es fácil y es realmente necesario, etc.

Otros consejos

No usaría PHP para una nueva aplicación que estoy escribiendo. No me gusta el idioma por varias razones.

Además, su fuerza es como un lenguaje de secuencias de comandos del lado del servidor para ofrecer páginas dinámicas en la web. No como un lenguaje de programación de propósito general. Ese es otro punto menos. Me quedaría con Python.

En cuanto a qué marco usar, hay muchos de ellos. Harvestman, Scrapy, etc. También está el rastreador basado en la nube 80legs de lo que podría usar.

Actualizar : La gente ha estado votando esta respuesta probablemente porque dije que no me gustaba PHP. Aquí hay una lista de razones por las cuales. No del todo preciso sino un resumen decente sin embargo http://wiki.python.org/moin/pythonvsphp

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top