我有数千名的简历,我想搜索具有“计算机科学”的CV作为背景。

所以,我googleled并知道lucene做这项工作,我需要将数据馈送到lucene,它索引所有文件。

在搜索特定文本(例如“Compuet Science”),它会导致CVS匹配结果。

为此,我需要将Msword-93 / msword-2007 / pdf转换为文本和饲料lucene。

我可以从msword2007文件中获取文本,但我无法从msword 2003获得。

有许多PDF作家,但我没有得到任何可以这样做的PDF阅读器库。

请在PDF读卡器库上抛出一些亮点,并将MS93文件转换为文本,或者请告诉我是否有leure搜索的替代方案。

谢谢,非常感谢答案

有帮助吗?

解决方案

您可以使用 apache solr 或直接 tika 从PDF和MS Word中提取文本并索引它。两者都是Java项目,但您可以从PHP调用他们的服务器。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top