Lucene搜索是什么替代品?
-
12-12-2019 - |
题
我有数千名的简历,我想搜索具有“计算机科学”的CV作为背景。
所以,我googleled并知道lucene做这项工作,我需要将数据馈送到lucene,它索引所有文件。
在搜索特定文本(例如“Compuet Science”),它会导致CVS匹配结果。为此,我需要将Msword-93 / msword-2007 / pdf转换为文本和饲料lucene。
我可以从msword2007文件中获取文本,但我无法从msword 2003获得。
有许多PDF作家,但我没有得到任何可以这样做的PDF阅读器库。
请在PDF读卡器库上抛出一些亮点,并将MS93文件转换为文本,或者请告诉我是否有leure搜索的替代方案。
谢谢,非常感谢答案
解决方案
您可以使用 apache solr 或直接 tika 从PDF和MS Word中提取文本并索引它。两者都是Java项目,但您可以从PHP调用他们的服务器。
不隶属于 StackOverflow