¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch?

https://stackoverflow.com/questions/223536

03-07-2019
|

Pregunta

Nuestra empresa tiene miles de documentos PDF. ¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch? Proporcionaremos una página web básica de Java / JSP donde las personas puedan escribir palabras y realizar consultas básicas y / o consultas y luego mostrarles los enlaces de documentos de todos los PDF coincidentes.

Solución

Ninguno de los proyectos en la familia Lucene puede procesar archivos PDF de forma nativa, pero hay utilidades que puede colocar y ejemplos bien escritos sobre cómo hacer su propio rollo.

Lucene hará lo que sea que necesites, pero hay gastos generales en términos de tu tiempo, como dijo Tony más arriba. Miles de documentos en realidad no son tantos , por lo que puede salirse con una alternativa más liviana.

Dicho esto, todavía recomendaría ver Solr: es mucho, mucho más fácil de configurar que Lucene, tiene soporte para copias de seguridad, replicación, etc., así como una ingeniosa interfaz JSON que se adapta muy bien a su caso de uso. : http://wiki.apache.org/solr/SolJSON

Otros consejos

He tenido buena suerte con Lucene, pero no es un clic, instalar y buscar, requiere un poco de trabajo.
Si necesita algo que pueda descargar, instalar y buscar en 10 minutos, consulte la edición gratuita de Ominifind Yahoo http : //omnifind.ibm.yahoo.net/ , usa Lucene, pero está empaquetado de manera que está configurado y listo para ejecutarse después de la instalación, una forma mucho más fácil de probar Lucene.

El complemento de Nutch + Lucene + Pdf habilitado en Nutch es su solución. Nutch le permite analizar archivos PDF habilitando el complemento pdf.

Lucene le permitirá indexar los datos rastreados y analizados y Nutch tiene un servelet que le brinda una interfaz de búsqueda.

Usamos el mismo para nuestros canales internos.

Google Search Appliance http://www.google.com/enterprise/gsa/

Creo que quieres un sistema para administrar tu archivo PDF. Por favor trate de usar el sistema dspace. Dspace es una biblioteca digital, compatible con Lucene. www.dspace.org.

Eche un vistazo a eprints . Incluye un flujo de trabajo para agregar nuevos documentos, indexar automáticamente y en miniatura las PDF y tiene una funcionalidad de búsqueda de texto completa bastante completa. También se puede personalizar y marcar fácilmente.

Por qué reinventar la rueda. De nuevo.

Responder a una pregunta tan amplia en este foro será difícil. Te recomiendo que consultes el libro Lucene en Acción , , que cubre los conceptos básicos de indexación y búsqueda de una manera bastante legible.

Dada su aplicación, parece que probablemente Nutch y Solr no serán necesarios. Dado que todos sus documentos están disponibles localmente, Nutch probablemente no será útil. Solr puede ayudarlo a administrar un grupo de buscadores si tiene una alta carga de consultas, pero Lucene tiene un alto rendimiento y maneja grandes conjuntos de documentos de una manera muy escalable.

El área que podría consumir gran parte de su esfuerzo es el uso de PDF. Es posible indexar documentos PDF, y hay Lucene contribuye para facilitar la extracción de texto de archivos PDF , pero según el documento, la calidad de los resultados puede variar. A menudo, el contexto de una palabra clave en un documento PDF no está claro debido a las instrucciones de formato, y eso puede dificultar las búsquedas de proximidad o mostrar el contexto de un resultado.

Una gran tecnología de búsqueda gratuita que puede ver es la IBM Yahoo! búsqueda libre No estoy seguro de si siguieron con los planes para usar a Lucene bajo las sábanas, pero sigue siendo uno de los mejores para usar las tecnologías de búsqueda gratuita. Creo que maneja hasta 500 mil documentos, y también es compatible con PDF y otros formatos que no son de texto. Interfaz gráfica de usuario; Fácil de personalizar los resultados de búsqueda, y análisis de búsqueda básicos. Tesauro básico y una API poderosa para que pueda hacer lo que quiera si los resultados no son de su agrado. Hemos sugerido esto a una serie de clientes donde había menos de medio millón de documentos, y les encanta.

Si tiene un servidor Linux, puede usar Beagle para indexarlos, y luego solo usa la funcionalidad de búsqueda que viene con él. Tiene una interfaz de búsqueda web (experimental) y también se puede enganchar en el cuadro de búsqueda de Firefox.

Indexa automáticamente los archivos a medida que se incluyen, y sospecho que encontrará mucho más eficiente mejorar o corregir beagle que escribir su propia interfaz de búsqueda para Lucene.

Teniendo la (distintiva) ventaja de estar en una Mac, uso SearchLight en un G5 algo mayor. Interfaz web agradable para destacar, el servicio de indexación integrado de Mac OS.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow