Pergunta

Gostaria de saber o que é a melhor biblioteca eabrir-source para rastreamento e análise de websites. Um exemplo seria um agências de propriedade de esteira, onde gostaria de pegar informações de um número de sites e agregá-los em meu próprio site. Para isso eu preciso para rastrear os sites e extrair os anúncios imobiliários.

Foi útil?

Solução

Eu faço um monte de raspagem, usando excelentes pacotes python urllib2 , mecanizar e BeautifulSoup .

Também sugiro que olhar para lxml e scrapy , embora eu não usá-los atualmente (ainda planejando para experimentar scrapy ).

linguagem Perl também tem excelentes instalações para raspagem.

Outras dicas

PHP / cURL é uma combinação muito poderosa, especialmente se você quiser usar os resultados diretamente em uma página da web ...

Em comum com o Sr. Morozov eu faço um pouco de raspagem também, principalmente em locais de trabalho. Eu nunca tive que recorrer a mecanizar, se isso ajuda qualquer. BeautifulSoup em combinação com urllib2 sempre foram suficientes.

Eu tenho usado lxml, o que é ótimo. No entanto, eu acredito que ele pode não ter estado disponível com o Google Apps há alguns meses quando eu tentei, se você precisa disso.

Os meus agradecimentos são devidos ao Sr. Morozov por mencionar Scrapy. não tinha ouvido falar dele.

Além Scrapy, você também deve olhar para Parselets

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top