O que é uma boa ferramenta Web Crawler [fechado]

https://stackoverflow.com/questions/176820

05-07-2019
|

Pergunta

Eu preciso indexar um monte de páginas, que são utilitários boa WebCrawler lá? Estou de preferência após algo que .NET pode falar, mas isso não é um empecilho.

O que eu realmente preciso é algo que eu posso dar a url do site para e seguirá cada ligação e armazenar o conteúdo para indexação.

Solução

HTTrack - http://www.httrack.com/ - é uma muito boa copiadora site . Funciona muito bem. Foram utilizá-lo por um longo tempo.

Nutch é um web crawler (rastreador é o tipo de programa que você está procurando) - http: / /lucene.apache.org/nutch/ -., que utiliza um lucene top de linha busca utilitário

Outras dicas

Crawler4j é uma fonte aberta rastreador Java que fornece uma interface simples para rastreamento da Web. Você pode configurar um rastreador web multi-threaded em 5 minutos.

Você pode definir seu próprio filtro para visitar páginas ou não (URLs) e definir alguma operação para cada página rastreada de acordo com a sua lógica.

Algumas razões para selecionar crawler4j;

Estrutura multi-threaded,
Você pode configurar a profundidade a ser rastreado,
É Java baseada e de código aberto,
Controle de links redundantes (URLs),
Você pode definir o número de páginas a serem rastreados,
Você pode definir o tamanho da página a ser rastreado,
documentação suficiente

Searcharoo.NET contém uma aranha que rastreamentos e indexa conteúdo, e um motor de busca para usá-lo. Você deve ser capaz de encontrar o seu caminho em torno do código Searcharoo.Indexer.EXE para interceptar o conteúdo que é baixado, e adicione seu próprio código personalizado de lá ...

É muito básico (todo o código fonte está incluído, e é explicado em seis artigos CodeProject, o mais recente dos quais é aqui Searcharoo v6 ): a aranha segue directivas links, mapas de imagem, imagens, obedece robôs, analisa alguns tipos de arquivos não-HTML. Ele é destinado a sites individuais (não toda a web).

Nutch / Lucene é quase certamente uma solução mais robusta / comercial grau - mas eu não olhei para o seu código. Não sei o que você está querendo fazer, mas você também visto Microsoft Search Server Express ?

Disclaimer: Eu sou o autor de Searcharoo; apenas oferecendo-lo aqui como uma opção.

Sphider é muito bom. É PHP, mas pode ser de alguma ajuda.

Eu uso de Mozenda Web raspagem software . Você poderia facilmente tê-lo rastejar todos os links e agarrar toda a informação que você precisa e é uma grande software para o dinheiro.

Eu não usei isso ainda, mas este parece interessante. O autor escreveu a partir do zero e postou como ele fez. O código para ele está disponível para download também.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow