Uma pergunta simples aranha

https://stackoverflow.com/questions/1810652

05-07-2019
|

Pergunta

Eu sou um novato tentando alcançar esta tarefa simples usando Scrapy sem sorte até agora. Eu estou pedindo o seu conselho sobre como fazer isso com Scrapy ou com qualquer outra ferramenta (com Python). Obrigado.

Eu quero

começar a partir de uma página que lista bios de advogados cujo início último nome com A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A
De LastName = A extrair links para bios reais: / Biolinks /
visitar cada um dos / Biolinks / para extrair a informação escolar para cada advogado.

Eu sou capaz de extrair o Biolinks / e informações / escola, mas eu sou incapaz de ir a partir do URL inicial para as páginas bio.

Se você acha que esta é a maneira errada de fazer isto, então, como você atingir esse objetivo?

Muito obrigado.

Solução

Não tenho certeza eu entendo totalmente o que está pedindo, mas talvez você precisa para obter a URL absoluta para cada bio e recuperar o código fonte para essa página:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Em seguida, use expressões regulares ou outra análise para obter a faculdade de direito do advogado.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow