¿Qué es una buena alternativa para la búsqueda de Lucene?

https://stackoverflow.com//questions/10697087

12-12-2019
|

Pregunta

Tengo miles de CVS y quiero buscar a los CV que tienen "ciencias de la computación" como su experiencia.

Así que, googled y conocí que Lucene hace este trabajo y necesito alimentar los datos a Lucene e indexa todos los documentos.

En la búsqueda de un texto en particular (Diga 'CompuTe Science'), resulta que los CV coinciden con los resultados.

Para esto, necesito convertir MSWORD-93 / MSWORD-2007 / PDF a texto y alimentar a Lucene.

Puedo obtener texto de los documentos MSWORD2007, pero no puedo obtener de Msword 2003.

Hay muchos escritores de PDF pero no obtuve ninguna biblioteca de lectores PDF que puede hacer esto.

Por favor, lanza un poco de luz en la biblioteca de lector de PDF y convierte los documentos MS93 al texto o hágamelo saber si alguna alternativa para la búsqueda de Lucene.

Gracias, muchas gracias por las respuestas

Solución

Puede usar apache solr o directamente tika para extraer texto de PDFS y MS Word e índicelo.Ambos son proyectos de Java, pero puede llamar a su servidor de PHP.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow