Pergunta

Estou procurando recomendações para um screenscraper que preciso extrair informações "entre em contato conosco" de determinados sites.

Alguma idéia de que eu possa obter um bom (pré -gratuito) ScreensCarper?

Foi útil?

Solução

Escreva o seu próprio - não é difícil. Se você não estiver familiarizado com a programação ou tem uma opção para linguagens de programação: use o suporte do Python, o suporte da biblioteca para fazer rabiscos excelentes.

Quanto a como atacar o problema, são duas técnicas populares: use expressões regulares, eles funcionam melhor para Ad hoc raspagem de tela. Se seus sites de destino estiverem bem estruturados-leia: não ad-hoc-use uma estrutura que permita trabalhar com o Dom.

Navegação e extração

Estas são as duas fases de escrever um aranha. Sua aranha precisa navegar em um site para visitar páginas diferentes e precisa extrair informações de interesse. Ambas as fases podem ser conduzidas pelo DOM ou

PS, como seu nome indica .NET-devo mencionar que escrevi raspadores no C-Sharp-é um Doddle.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top