Pregunta

He echado un vistazo a muchas clases particulares en relación con CookieJar, pero mi problema es que la página web que quiero escapar crea la cookie usando javascript y me parece que no puede obtener la cookie. ¿Alguien tiene una solución a este problema?

¿Fue útil?

Solución

Si todas las páginas tienen la misma JavaScript entonces tal vez podrían analizar el código HTML para encontrar ese trozo de código, y desde que obtener el valor de la cookie se establece en?

Eso haría que el raspado bastante vulnerable a los cambios en el sitio web de terceros, pero eso es el caso más frecuente, mientras que el raspado. (Por favor, tenga en cuenta que el propietario del sitio web de terceros no le guste que usted está recibiendo el contenido de esta manera.)

Otros consejos

he respondido a su otra pregunta así: echar un vistazo a mecanizar . Es probablemente el módulo de raspado más prestaciones que sé:. Si se envía la cookie, entonces estoy seguro de que puede llegar a ella con este módulo

Tal vez se puede ejecutar el código JavaScript en un motor de JavaScript con enlaces Python (como pitón -spidermonkey o pyv8 ) y luego obtener la cookie. O, como el código JavaScript se ejecuta en el cliente de todos modos, es posible que pueda convertir el código de generación de galleta-a Python.

Se puede acceder a la página usando un navegador real, a través de Pamie , win32com o similar, entonces el código JavaScript se ejecuta en su ambiente nativo.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top