Pergunta

Eu tenho milhares de currículos e quero procurar o CVS com "ciência da computação" como seu histórico.

Então, eu googled e tenho que saber que Lucene faz este trabalho e eu preciso alimentar os dados para Lucene e ele indexa todos os documentos.

em busca de um determinado texto (digamos 'Compuet Science'), ele resultou no CVS correspondente aos resultados.

Para isso, eu preciso converter msword-93 / msword-2007 / pdf para texto e alimentar Lucene.

Eu posso obter texto fora dos documentos msword2007, mas não consigo obter da MSWORD 2003.

Há muitos escritores PDF, mas eu não recebi nenhuma biblioteca de leitor de PDF que possa fazer isso.

Por favor, jogue alguma luz na biblioteca de leitores PDF e convertendo documentos MS93 para texto ou, por favor, deixe-me saber se alguma alternativa para a pesquisa de Lucene.

Obrigado, muito obrigado por respostas

Foi útil?

Solução

Você pode usar apache solr ou diretamente tika para extrair texto de PDFs e MS Word e indexar.Ambos são projetos Java, mas você pode ligar para o servidor do PHP.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top