O que é uma boa ferramenta Web Crawler [fechado]
-
05-07-2019 - |
Pergunta
Eu preciso indexar um monte de páginas, que são utilitários boa WebCrawler lá? Estou de preferência após algo que .NET pode falar, mas isso não é um empecilho.
O que eu realmente preciso é algo que eu posso dar a url do site para e seguirá cada ligação e armazenar o conteúdo para indexação.
Solução
HTTrack - http://www.httrack.com/ - é uma muito boa copiadora site . Funciona muito bem. Foram utilizá-lo por um longo tempo.
Nutch é um web crawler (rastreador é o tipo de programa que você está procurando) - http: / /lucene.apache.org/nutch/ -., que utiliza um lucene top de linha busca utilitário
Outras dicas
Crawler4j é uma fonte aberta rastreador Java que fornece uma interface simples para rastreamento da Web. Você pode configurar um rastreador web multi-threaded em 5 minutos.
Você pode definir seu próprio filtro para visitar páginas ou não (URLs) e definir alguma operação para cada página rastreada de acordo com a sua lógica.
Algumas razões para selecionar crawler4j;
- Estrutura multi-threaded,
- Você pode configurar a profundidade a ser rastreado,
- É Java baseada e de código aberto,
- Controle de links redundantes (URLs),
- Você pode definir o número de páginas a serem rastreados,
- Você pode definir o tamanho da página a ser rastreado,
- documentação suficiente
Searcharoo.NET contém uma aranha que rastreamentos e indexa conteúdo, e um motor de busca para usá-lo. Você deve ser capaz de encontrar o seu caminho em torno do código Searcharoo.Indexer.EXE para interceptar o conteúdo que é baixado, e adicione seu próprio código personalizado de lá ...
É muito básico (todo o código fonte está incluído, e é explicado em seis artigos CodeProject, o mais recente dos quais é aqui Searcharoo v6 ): a aranha segue directivas links, mapas de imagem, imagens, obedece robôs, analisa alguns tipos de arquivos não-HTML. Ele é destinado a sites individuais (não toda a web).
Nutch / Lucene é quase certamente uma solução mais robusta / comercial grau - mas eu não olhei para o seu código. Não sei o que você está querendo fazer, mas você também visto Microsoft Search Server Express ?
Disclaimer: Eu sou o autor de Searcharoo; apenas oferecendo-lo aqui como uma opção.
Sphider é muito bom. É PHP, mas pode ser de alguma ajuda.
Eu uso de Mozenda Web raspagem software . Você poderia facilmente tê-lo rastejar todos os links e agarrar toda a informação que você precisa e é uma grande software para o dinheiro.
Eu não usei isso ainda, mas este parece interessante. O autor escreveu a partir do zero e postou como ele fez. O código para ele está disponível para download também.