Что хорошая альтернатива для поиска Лусина?
-
12-12-2019 - |
Вопрос
У меня есть тысячи CVS, и я хочу искать CVS, имеющую «компьютерную науку» как их фоном.
Итак, я поглотил и узнал, что Lucene делает эту работу, и мне нужно прокормить данные в Lucene, и она индексирует все документы.
На поиск определенного текста (скажем, «Компоциута науки»), он приводит к тому, что CVS соответствует результатам.
Для этого мне нужно преобразовать msword-93 / msword-2007 / pdf для текста и кормить lucene.
Я могу получить текст из документов msword2007, но я не могу получить от Msword 2003.
Есть много писателей PDF, но я не получил никакой библиотеки читателей PDF, которая может это сделать.
Пожалуйста, бросьте немного света на библиотеке PDF Reader и конвертируя документы MS93 в текст или пожалуйста, дайте мне знать, если какие-либо альтернативы для поиска Лусина.
Спасибо, большое спасибо за ответы
Решение
Вы можете использовать apache solr или напрямую Tika Чтобы извлечь текст из PDFS и MS Word и index.Оба проекта Java, но вы можете вызвать их сервер из PHP.