Uma pergunta simples aranha
-
05-07-2019 - |
Pergunta
Eu sou um novato tentando alcançar esta tarefa simples usando Scrapy sem sorte até agora. Eu estou pedindo o seu conselho sobre como fazer isso com Scrapy ou com qualquer outra ferramenta (com Python). Obrigado.
Eu quero
-
começar a partir de uma página que lista bios de advogados cujo início último nome com A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A
-
De LastName = A extrair links para bios reais: / Biolinks /
-
visitar cada um dos / Biolinks / para extrair a informação escolar para cada advogado.
Eu sou capaz de extrair o Biolinks / e informações / escola, mas eu sou incapaz de ir a partir do URL inicial para as páginas bio.
Se você acha que esta é a maneira errada de fazer isto, então, como você atingir esse objetivo?
Muito obrigado.
Solução
Não tenho certeza eu entendo totalmente o que está pedindo, mas talvez você precisa para obter a URL absoluta para cada bio e recuperar o código fonte para essa página:
import urllib2
bio_page = urllib.urlopen(bio_url).read()
Em seguida, use expressões regulares ou outra análise para obter a faculdade de direito do advogado.