Recomendações para uma ferramenta spidering para usar com Lucene ou Solr? [fechadas]

https://stackoverflow.com/questions/282654

08-07-2019
|

Pergunta

O que é um bom rastreador (spider) para usar contra HTML e documentos XML (local ou web-based) e que funciona bem no espaço de solução Lucene / Solr? Poderia ser baseado em Java, mas não tem que ser.

Solução

Na minha opinião, este é um buraco bastante significativo que está mantendo-se a adopção generalizada de Solr. O novo DataImportHandler é um bom primeiro passo para importar dados estruturados, mas não há um gasoduto ingestão bom documento para Solr. Nutch funciona, mas a integração entre Nutch rastreador e Solr é um pouco desajeitado.
Tentei todas as rastreador de código aberto que eu possa encontrar, e nenhum deles integra out-of-the-box com Solr.
Fique de olho no OpenPipeline e Apache Tika.

Outras dicas

Eu tentei Nutch, mas era muito difícil de se integrar com Solr. Gostaria de dar uma olhada em Heritrix. Ele tem um extenso sistema de plugins para torná-lo fácil de integrar com Solr, e é muito, muito mais rápido em rastreamento. Ele faz uso extensivo de tópicos para acelerar o processo.

Eu sugiro que você confira Nutch para obter alguma inspiração:

Nutch é um software web-search open source. Baseia-se no Lucene Java, acrescentando web-específicos, como um rastreador, um banco de dados link-graph, analisadores para HTML e outros formatos de documentos, etc.

Além disso, verifique Apache Droids [ http://incubator.apache.org/droids/] -. este esperanças não ser um / rastreador estrutura simples aranha / trabalhador

Ele é novo e ainda não é fácil de usar fora da prateleira (que vai demorar algum tweeking para obter execução), mas é uma coisa boa para manter seu olho.

Nutch pode ser a sua correspondência mais próxima, mas não é muito flexível.

Se você precisa de algo mais você vai ter que cortar praticamente seu próprio rastreador. Não é tão ruim quanto parece, cada língua tem bibliotecas web, assim você só precisa se conectar algum gerenciador de filas tarefa com HTTP downloader e HTML parser, não é realmente muito trabalho. Você provavelmente pode fugir com uma única caixa, como o rastreamento é principalmente largura de banda-intentive, não-intensivo da CPU.

http://arachnode.net

C #, mas produz Lucene (Java e C #) arquivos de índice de consumo.

Alguém tentou Xapian? Ele emendas muito mais rápido do Solr e escrito em C ++.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow