Como podemos criar um motor de busca simples usando o Lucene, Solr ou Nutch?

https://stackoverflow.com/questions/223536

03-07-2019
|

Pergunta

Nossa empresa tem milhares de documentos PDF. Como podemos criar um motor de busca simples usando o Lucene, Solr ou Nutch? Nós vamos fornecer uma página básica web Java / JSP foram as pessoas podem digitar palavras e realizar básicos e / ou consultas, em seguida, mostrar-lhes os links de documentos de de toda a correspondência PDF.

Solução

Nenhum dos projetos na família Lucene pode nativamente processar PDFs, mas existem utilitários você pode cair dentro e exemplos bem escritos sobre como rolar o seu próprio.

Lucene vai fazer praticamente tudo o que você precisa fazer, mas há sobrecarga em termos de seu tempo, como Tony disse acima. Milhares de documentos realmente não é que muitos, de modo que você pode ser capaz de fugir com uma alternativa mais leve.

Dito isto, eu ainda recomendo olhar para Solr - é muito, muito mais fácil de configurar do que Lucene, tem suporte para backups, replicação, etc., bem como uma interface JSON bacana que se encaixam no seu caso de uso muito bem : http://wiki.apache.org/solr/SolJSON

Outras dicas

Eu tive sorte com o Lucene, mas não é clique, instalar e procurar, ele exige um pouco de trabalho.
Se você precisa de algo que yo pode baixar e instalar e estar procurando dentro de 10 minutos, olhar para o livre Ominifind Yahoo Edição http :. //omnifind.ibm.yahoo.net/ , ele usa Lucene, mas é embalado de tal forma que ele está configurado e pronto para ser executado após a instalação, uma maneira muito mais fácil para tentar Lucene

Nutch + Lucene + Pdf plug-in habilitado Nutch é a sua solução. Nutch lhe permite analisar os pdfs ao permitir que o plugin pdf.

Lucene permitirá que você para indexar os dados rastreados e analisados ??e Nutch tem servelet que lhe dá uma interface de pesquisa.

Nós usamos o mesmo para nossos lans internos.

O Google Search Appliance http://www.google.com/enterprise/gsa/

Eu acho que você quer um sistema para gerir o seu arquivo PDF. Por favor, tente usar o sistema DSpace. Dspace é uma biblioteca digital, suporta Lucene baseado. www.dspace.org.

Dê uma olhada Eprints . Ele inclui um fluxo de trabalho para a adição de novos documentos, automaticamente índices e miniaturas PDF de e tem a funcionalidade de pesquisa bastante abrangente texto completo. Ele também pode ser facilmente personalizado e de marca.

Por que re-inventar a roda. Novamente.

Respondendo a uma pergunta ampla, tais neste fórum será difícil. Eu recomendo que você confira o livro Lucene em ação , que aborda os conceitos básicos de indexação e busca de uma forma bastante legível.

Dada a sua aplicação, parece que Nutch e Solr provavelmente não será necessário. Uma vez que todos os seus documentos estão disponíveis localmente, Nutch provavelmente não será útil. Solr pode ajudar você a gerenciar um grupo de pesquisadores se você tem uma alta carga de consulta, mas Lucene é altamente performance e alças grandes conjuntos de documentos de uma forma muito escalável.

A única área que pode consumir muito do seu esforço é o uso de PDF. É possível indexar documentos PDF, e há contribuições Lucene para facilitar a extração da matéria texto de PDFs , mas dependendo do documento, a qualidade dos resultados pode variar. Muitas vezes, o contexto de uma palavra-chave em um documento PDF não é clara por causa de instruções de formatação, e que pode torná-lo difícil de fazer pesquisas de proximidade ou mostrar o contexto de um hit.

A grande tecnologia de pesquisa gratuito que você pode olhar é o IBM Yahoo! pesquisa livre. Eu não tenho certeza se eles seguiram através de planos de usar Lucene debaixo das cobertas, mas continua a ser um dos realmente grande, a leste de usar tecnologias de pesquisa gratuitos. Ele lida com até 500 mil documentos, creio eu, e suporta PDF e outros formatos não-texto também. Interface gráfica do usuário; fácil de personalizar os resultados de pesquisa e análise de pesquisa básicas. thesaurus Basic, e poderosa API para que você pode fazer praticamente o que quiser, se a partir dos resultados de caixa não são do seu agrado. Nós sugerimos isso para um número de clientes, onde havia menos de meio milhão de documentos, e eles adoram.

Se você tiver um servidor Linux, você pode usar Beagle indexá-los, e depois apenas usar a funcionalidade de pesquisa que vem com ele. Tem um (experimental) interface de pesquisa na web, e pode ser viciado na caixa de pesquisa do Firefox também.

Ele automaticamente indexa arquivos como eles estão incluídos, e eu suspeito que você vai encontrá-lo muito mais eficiente para melhorar ou correção beagle do que escrever sua própria interface de busca para Lucene.

Ter a (IMHO) vantagem de ser em um Mac, eu uso SearchLight em um G5 um pouco mais velho. agradável interface web para destacar, o Mac OS' built-in serviço de indexação.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow