Pergunta

Eu sou um novato tentando alcançar esta tarefa simples usando Scrapy sem sorte até agora. Eu estou pedindo o seu conselho sobre como fazer isso com Scrapy ou com qualquer outra ferramenta (com Python). Obrigado.

Eu quero

  1. começar a partir de uma página que lista bios de advogados cujo início último nome com A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A

  2. De LastName = A extrair links para bios reais: / Biolinks /

  3. visitar cada um dos / Biolinks / para extrair a informação escolar para cada advogado.

Eu sou capaz de extrair o Biolinks / e informações / escola, mas eu sou incapaz de ir a partir do URL inicial para as páginas bio.

Se você acha que esta é a maneira errada de fazer isto, então, como você atingir esse objetivo?

Muito obrigado.

Foi útil?

Solução

Não tenho certeza eu entendo totalmente o que está pedindo, mas talvez você precisa para obter a URL absoluta para cada bio e recuperar o código fonte para essa página:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Em seguida, use expressões regulares ou outra análise para obter a faculdade de direito do advogado.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top