Una simple pregunta de araña.

https://stackoverflow.com/questions/1810652

05-07-2019
|

Pregunta

Soy un novato que está tratando de lograr esta simple tarea usando Scrapy sin suerte hasta ahora. Le pido consejo sobre cómo hacer esto con Scrapy o con cualquier otra herramienta (con Python). Gracias.

Quiero

comience desde una página que enumera las biografías de abogados cuyo apellido comience con A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A
De Apellido = A para extraer enlaces a las biografías reales: / BioLinks /
visite cada uno de los / BioLinks / para obtener la información de la escuela de cada abogado.

Soy capaz de extraer la información de / BioLinks / and School, pero no puedo pasar de la URL inicial a las páginas de biografía.

Si crees que esta es la forma incorrecta de hacerlo, entonces, ¿cómo lograrías este objetivo?

Muchas gracias.

Solución

No estoy seguro de entender lo que estás preguntando, pero quizás necesites obtener la URL absoluta de cada biografía y recuperar el código fuente de esa página:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Luego use expresiones regulares u otro análisis para obtener la facultad de derecho del abogado.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow