Existe algum rastreador de web aberto, simplesmente extensível?
-
21-09-2019 - |
Pergunta
Eu procuro uma solução de rastreador da web que possa ser madura o suficiente e pode ser simplesmente estendida. Estou interessado nos seguintes recursos ... ou possibilidade de estender o rastreador para encontrá -los:
- em parte apenas para ler os feeds de vários sites
- Para descartar o conteúdo desses sites
- Se o site tiver um arquivo, eu gostaria de rastejar e indexá -lo também
- O rastreador deve ser capaz de explorar parte da web para mim e deve ser capaz de decidir quais sites correspondem aos critérios fornecidos
- deve ser capaz de me notificar, se as coisas correspondem ao meu interesse foram encontradas
- O rastreador não deve matar os servidores atacando -o por muitos pedidos, deve ser inteligente fazendo rastejamento
- O rastreador deve ser robusto contra sites e servidores Freak
Essas coisas acima podem ser feitas uma a uma sem nenhum grande esforço, mas estou interessado em qualquer solução que forneça um rastreador personalizável e extensível. Ouvi falar de Apache Nutch, mas muito inseguro sobre o projeto até agora. Você tem experiências com isso? Você pode recomendar alternativas?
Outras dicas
Eu usei Nutch extensivamente, quando estava construindo o índice de projeto de código aberto para minha startup de Krugle. É difícil personalizar, sendo um design bastante monolítico. Há uma arquitetura de plug-in, mas a interação entre os plug-ins e o sistema é complicada e frágil.
Como resultado dessa experiência e precisando de algo com mais flexibilidade, iniciei o projeto Bixo - um kit de ferramentas de mineração na web. http://openbixo.org.
Se é certo para você depende da ponderação de fatores como:
- Quanta flexibilidade você precisa (+)
- Quão maduro deve ser (-)
- Se você precisa da capacidade de escalar (+)
- Se você estiver confortável com Java/Hadoop (+)
Eu recomendo sinceramente Heritrix. É muito flexível e eu argumentaria que é o mais testado de batalha disponível gratuitamente, o rastreador de código aberto, pois é o que o arquivo da Internet usa.
Você deve encontrar algo que atenda às suas necessidades aqui.