Question

J'ai des milliers de CV et je souhaite rechercher les CVS ayant une "informatique" comme fond.

Alors, j'ai googlé et appris à savoir que Lucene fait ce travail et que je dois nourrir les données à Lucene et qu'il indexe tous les documents.

À la recherche d'un texte particulier (disons «Science Comdue»), il résulte des CVS correspondant aux résultats.

Pour cela, je dois convertir msword-93 / msword-2007 / PDF en texte et flux Lucene.

Je peux avoir un texto à partir de documents MSWord2007, mais je ne parviens pas à obtenir de Msword 2003.

Il existe de nombreux écrivains PDF, mais je n'ai pas eu de bibliothèque de lecteur PDF qui peut faire cela.

Veuillez jeter une lumière sur la bibliothèque de lecteurs PDF et convertir des documents MS93 en texte ou laissez-moi savoir si des alternatives pour la recherche Lucene.

merci, merci beaucoup de réponses

Était-ce utile?

La solution

Vous pouvez utiliser Apache Solr ou directement tika pour extraire du texte de PDF et MS Word et d'indexer.Les deux sont des projets Java, mais vous pouvez appeler leur serveur de PHP.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top