Pergunta

Eu sou bom bonito com Python, então pseudo-código será suficiente quando os detalhes são triviais. Por favor me fale sobre a tarefa - como ir sobre como rastrear a rede para os endereços de correio caracol de igrejas no meu estado. Assim que eu tiver um um forro como "123 Old West Road # 3 Old Lyme City MD 01234", eu posso analisá-lo em cidade, estado, rua, número, apt com tentativa e erro o suficiente. Meu problema é - se eu usar páginas brancas online, então como faço para lidar com todo o lixo HTML, tabelas HTML, anúncios, etc? Eu não acho que eu preciso de seu número de telefone, mas não vai doer - Eu sempre pode jogá-lo fora uma vez analisado. Mesmo que a sua solução é meio-manual (como salvar para pdf, acrobata, em seguida, Abrir, Salvar como texto) - eu poderia ser feliz com ele ainda. Obrigado! Heck, eu mesmo aceitará trechos Perl - Eu posso traduzir-los eu mesmo

.
Foi útil?

Solução

Você pode usar mecanizar . É uma biblioteca python que simula um navegador, para que você possa rastrear através das páginas brancas (semelhante ao que você faz manualmente).

A fim de lidar com o python 'html junk' tem uma biblioteca para isso também: BeautifulSoup É uma bela maneira de obter os dados que você quer fora do HTML (é claro que ele assume que você sabe um pouco sobre HTML, como você ainda terá que navegar a árvore de análise).

Update: Quanto à sua pergunta de acompanhamento sobre como clicar em várias páginas. mecanizar é uma biblioteca para fazer exatamente isso. Dê uma olhada em seus exemplos, esp. o método follow_link. Como eu disse que simula um navegador, de modo que 'clique' pode ser realizado rapidamente em python.

Outras dicas

lynx --dump <url> tentar baixar as páginas da web. Todas as tags HTML problemáticos serão removidos a partir da saída, e todos os links da página irá aparecer juntos.

O que você está tentando fazer é chamado Raspagem ou raspagem web.

Se você fizer algumas pesquisas em python e raspagem , você pode encontrar uma lista de ferramentas que vai ajudar.

(eu tenho scrapy nunca usado, mas é do site parece promissor:)

Beautiful Soup é um brainer não. Aqui está um site que você pode começar em http://www.churchangel.com/ . Eles têm uma lista enorme e a formatação é muito regular - tradução: fácil de configurar BSoup para raspar

.

scripts Python pode não ser a melhor ferramenta para este trabalho, se você está apenas à procura de endereços de igrejas em uma área geográfica.

O censo dos EUA fornece um conjunto de igrejas para uso com sistemas de informação geográfica de dados. Se encontrar todo o x em uma área espacial é um problema recorrente, investir no aprendizado de um SIG. Então você pode trazer suas habilidades Python para carregar em muitas tarefas geográficas.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top