Procurando uma alternativa gratuita ao webzinc .net, raspagem de tela, bibliotecas de automação da web para .net [fechado
-
21-09-2019 - |
Pergunta
Eu me deparei com esta biblioteca .NET:
http://www.webzinc.com/online/faq.aspx
No entanto, eu queria saber se havia uma alternativa gratuita por aí?
Solução
A construção de robôs não é tão difícil, e há vários livros que descrevem o algoritmo geral para isso (uma simples pesquisa no Google aparecerá vários algoritmos).
O jist de uma perspectiva .Net é recursivamente:
Baixar páginas - isso é feito através do
HttpWebRequest
/HttpWebResponse
, ou oWebClient
Aulas. Além disso, você pode usar o novo WCF Web API da CodePlex, que é um grande Melhoria acima do exposto, significava especificamente para produzir/consumir conteúdo de repouso, funciona maravilhosamente Para fins de aranha (principalmente por causa de sua extensibilidade)Analisar o conteúdo baixado - eu altamente Recomende o HTML Agility Pack assim como o Fizzler Extensão para o pacote de agilidade HTML. O pacote de agilidade HTML lidará com HTML malformado e permitirá que você consulte elementos HTML usando XPath (ou um subconjunto de). Além disso, o Fizzler permitirá que você use Seletores CSS Se você está familiarizado com Usando -os no jQuery.
Depois de ter o HTML em um formato estruturado, verifique a estrutura do conteúdo relevante para você e processá -lo.
Digitalize o formato estruturado para links externos e coloque na fila a ser processado (contra quaisquer restrições desejadas para o seu aplicativo, você não está indexando a Web inteira, é?).
Obtenha o próximo item na fila e repita o processo novamente.