orientación sobre los paquetes de Python raspado

https://stackoverflow.com/questions/4270476

28-09-2019
|

Pregunta

Todavía soy un recién llegado a pitón, así que espero que esta pregunta no es estúpida.

Mientras más soluciones de Google para el raspado web, más confusa me convierto (incapaz de ver un bosque, a pesar de la investigación de muchos árboles ..)

He estado leyendo la documentación de una serie de proyectos, incluyendo (pero no limitado a) scrapy mecanizar spynner

pero en realidad no puede averiguar qué martillo que debería estar tratando de usar ..

Hay una página específica que estoy tratando de rastreo (www.schooldigger.com) Utiliza asp, y hay algo de java script que necesito para ser capaz de emular.

Soy consciente de este tipo de problema no se resuelve fácilmente con, por lo que me gustaría alguna orientación.

Además de cierta discusión general de las opciones disponibles (y las relaciones entre los diferentes proyectos, si es posible) tengo un par de preguntas específicas

Cuando se utiliza scrapy, ¿hay alguna manera de evitar la definición de los artículos '' a ser analizados, y sólo tiene que descargar el primer par de cientos de páginas más o menos? Yo en realidad no quiero descargar sitios web completos, pero, me gustaría ser capaz de ver qué páginas se están descargando mientras se desarrolla el rascador.
mecanizar, ASP y Javascript, por favor ver una pregunta que he publicado, pero has visto ninguna respuesta a, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
Por qué no construir algún tipo de utilidad (ya sea una aplicación TurboGears o un complemento del navegador en) que permite a un usuario seleccionar enlaces a seguir y elementos para analizar gráficamente? Todo lo que estoy sugiriendo es algún tipo de interfaz gráfica de usuario a sentarse alrededor de una API de análisis. No sé si tengo el conocimiento técnico para crear un proyecto de este tipo, pero no veo por qué no es posible, de hecho, parece factible dada, más lo que sé de pitón. Tal vez algunos comentarios acerca de cuáles son los problemas que este tipo de proyecto se enfrentaría?
Lo más importante, se construyen todos los rastreadores web site specific '? Me parece que soy una especie de reinventar la rueda en mi código .. (pero eso es probablemente porque no soy muy bueno en la programación)
Alguien tiene alguna ejemplos de rascadores plenamente las funciones? Hay un montón de ejemplos en la documentación, (que ive estado estudiando), pero todos ellos parecen centrarse en la simplicidad, sólo por la exposición del uso de paquete, tal vez me beneficiarse de un ejemplo más detallado / complicado.

Gracias por sus pensamientos.

Solución

Para la interacción completa del navegador son la mejor manera de buscar en el uso Selenio-RC

Esto tiene un controlador de pitón y puede crear un script de un navegador a "prueba" casi cualquier sitio en el Internet

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow