Pregunta

He encontrado un proyecto, Jaxer que incrusta motor JavaScript de Firefox en el lado del servidor, por lo que se puede analizar el HTML en servidor adversos muy bien. Sin embargo, este proyecto parece muerto. Es muy útil para el rastreo de páginas de Internet para analizar HTML y extraer datos.

¿Hay alguna nueva tecnología útil para extraer información?

¿Fue útil?

Solución

Lo que he hecho en el pasado es el uso Selenio RC para controlar un navegador web (por lo general Firefox) en código para la carga y sitios web de análisis sintáctico utilizando un navegador web real.

Lo bueno de esto es que la mayoría son de codificación en un lenguaje que se sienta cómodo ya sea Perl o Ruby o C #. Sin embargo, para utilizar plenamente el poder de selenio que todavía necesita saber y javascript escritura.

Otros consejos

Otra forma interesante de hacer esto es usar Node.js conjuntamente con jsdom y nodo-HTMLParser para cargar una página y analizar el Javascript en ella. En realidad no está trabajando fuera de la caja sin embargo, en el momento pero Dav Glass (de Yahoo) han tenido YUI éxito se ejecuta en Node.js usando una versión modificada de este combinado.

Esto es interesante si decide que no hay nada por ahí es lo suficientemente bueno y desea implementar su propio. Si por lo que tendría un excelente proyecto de código abierto.

He tenido algo de éxito escribiendo un rastreador JS-habilitados en Python + pywebkitgtk + Javascript. Es mucho más lenta que un rastreador tradicional, pero hace el trabajo hecho y puede hacer cosas interesantes como las capturas maquillaje y recoger el contenido que ha sido 'oscurecida' por inyección js.

Hay un artículo decente con un código de ejemplo aquí:

http://blog.motane.lu / 2009/06/18 / pywebkitgtk-ejecutar-javascript-de-python /

ItsNat es similar a Jaxer la diferencia principal está basado en Java, en lugar de JavaScript.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top