Domanda

Ho migliaia di CV e voglio cercare il CVS avendo "informatica" come sfondo.

Allora, ho googlato e ho dovuto sapere che Lucene fa questo lavoro e ho bisogno di dare da mangiare ai dati a Lucene e indicizza tutti i documenti.

Alla ricerca di un particolare testo (dire 'COMPUET Science'), risulta il CV corrispondente ai risultati.

Per questo, ho bisogno di convertire Msword-93 / Msword-2007 / PDF per testo e nutrire Lucene.

Posso ottenere un messaggio da MSWord2007 documenti, ma non riesco a ottenere da Msword 2003.

Ci sono molti scrittori PDF ma non ho avuto nessuna libreria di lettore PDF che può farlo.

Si prega di lanciare un po 'di luce sulla libreria dei lettore PDF e convertire i documenti MS93 in testo o fammi sapere se alcune alternative per la ricerca di Lucene.

Grazie, molte grazie per le risposte

È stato utile?

Soluzione

Puoi usare apache solr o direttamente tika per estrarre testo da PDFS e MS Word e indice IT.Entrambi sono progetti Java, ma puoi chiamare il proprio server da PHP.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top