Procurando uma alternativa gratuita ao webzinc .net, raspagem de tela, bibliotecas de automação da web para .net [fechado

StackOverflow https://stackoverflow.com/questions/1951753

Pergunta

Eu me deparei com esta biblioteca .NET:

http://www.webzinc.com/online/faq.aspx

No entanto, eu queria saber se havia uma alternativa gratuita por aí?

Foi útil?

Solução

A construção de robôs não é tão difícil, e há vários livros que descrevem o algoritmo geral para isso (uma simples pesquisa no Google aparecerá vários algoritmos).

O jist de uma perspectiva .Net é recursivamente:

  • Baixar páginas - isso é feito através do HttpWebRequest/HttpWebResponse, ou o WebClient Aulas. Além disso, você pode usar o novo WCF Web API da CodePlex, que é um grande Melhoria acima do exposto, significava especificamente para produzir/consumir conteúdo de repouso, funciona maravilhosamente Para fins de aranha (principalmente por causa de sua extensibilidade)

  • Analisar o conteúdo baixado - eu altamente Recomende o HTML Agility Pack assim como o Fizzler Extensão para o pacote de agilidade HTML. O pacote de agilidade HTML lidará com HTML malformado e permitirá que você consulte elementos HTML usando XPath (ou um subconjunto de). Além disso, o Fizzler permitirá que você use Seletores CSS Se você está familiarizado com Usando -os no jQuery.

  • Depois de ter o HTML em um formato estruturado, verifique a estrutura do conteúdo relevante para você e processá -lo.

    • Digitalize o formato estruturado para links externos e coloque na fila a ser processado (contra quaisquer restrições desejadas para o seu aplicativo, você não está indexando a Web inteira, é?).

    • Obtenha o próximo item na fila e repita o processo novamente.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top