Pregunta

  

Duplicar posible:
   raspado de una página web con una gran cantidad de Javascript

Yo sólo quiero hacer tareas tales como la entrada de forma y raspado web, pero en los sitios que requieren de soporte javascript. Y también necesito para entrar en las formas, raspar, y así sucesivamente en la misma sesión. Idealmente, me gustaría una manera de controlar un navegador web desde la línea de comandos. Y también quiero usar sólo Linux para todo esto, así que no puedo utilizar .NET.

He encontrado la biblioteca navegador web para Python, pero sus capacidades parecen muy limitada. Si eso podría interactuar con mecanizar y BeautifulSoup, eso sería increíble. ¿Alguna sugerencia? Gracias!

¿Fue útil?

Solución

Por supuesto que podría escribir una aplicación XUL con Mozilla (ejecutarlo con Firefox, Xulrunner etc.) que las secuencias de comandos de un navegador web. JavaScript se utiliza normalmente para este tipo de tareas.

Lo que he encontrado es complicado es la supresión de todos los tipos de cajas de diálogo que el navegador de otra manera cree - que tiene efectivamente a sustituir el comportamiento de las clases de servidor XPCOM la que se invocan para cada tipo de diálogo, y hay una muchas otras diferentes (por ejemplo, si su sitio decide volver a dirigir a un sitio HTTPS con un certificado caducado).

Por supuesto que no debe utilizar este mecanismo para violar la política de cualquier sitio en el uso de robots. Normalmente nunca se debe presentar un formulario con un robot.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top