Pergunta

Eu procuro uma solução de rastreador da web que possa ser madura o suficiente e pode ser simplesmente estendida. Estou interessado nos seguintes recursos ... ou possibilidade de estender o rastreador para encontrá -los:

  • em parte apenas para ler os feeds de vários sites
  • Para descartar o conteúdo desses sites
  • Se o site tiver um arquivo, eu gostaria de rastejar e indexá -lo também
  • O rastreador deve ser capaz de explorar parte da web para mim e deve ser capaz de decidir quais sites correspondem aos critérios fornecidos
  • deve ser capaz de me notificar, se as coisas correspondem ao meu interesse foram encontradas
  • O rastreador não deve matar os servidores atacando -o por muitos pedidos, deve ser inteligente fazendo rastejamento
  • O rastreador deve ser robusto contra sites e servidores Freak

Essas coisas acima podem ser feitas uma a uma sem nenhum grande esforço, mas estou interessado em qualquer solução que forneça um rastreador personalizável e extensível. Ouvi falar de Apache Nutch, mas muito inseguro sobre o projeto até agora. Você tem experiências com isso? Você pode recomendar alternativas?

Foi útil?

Solução

Uma pesquisa rápida em Github Vomitou Anêmona, uma estrutura de aranha da web que parece atender aos seus requisitos - particularmente extensível. Escrito em Ruby.
Espero que corra bem!

Outras dicas

Eu usei Nutch extensivamente, quando estava construindo o índice de projeto de código aberto para minha startup de Krugle. É difícil personalizar, sendo um design bastante monolítico. Há uma arquitetura de plug-in, mas a interação entre os plug-ins e o sistema é complicada e frágil.

Como resultado dessa experiência e precisando de algo com mais flexibilidade, iniciei o projeto Bixo - um kit de ferramentas de mineração na web. http://openbixo.org.

Se é certo para você depende da ponderação de fatores como:

  1. Quanta flexibilidade você precisa (+)
  2. Quão maduro deve ser (-)
  3. Se você precisa da capacidade de escalar (+)
  4. Se você estiver confortável com Java/Hadoop (+)

Eu recomendo sinceramente Heritrix. É muito flexível e eu argumentaria que é o mais testado de batalha disponível gratuitamente, o rastreador de código aberto, pois é o que o arquivo da Internet usa.

Você deve encontrar algo que atenda às suas necessidades aqui.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top