Вопрос

У меня есть тысячи CVS, и я хочу искать CVS, имеющую «компьютерную науку» как их фоном.

Итак, я поглотил и узнал, что Lucene делает эту работу, и мне нужно прокормить данные в Lucene, и она индексирует все документы.

На поиск определенного текста (скажем, «Компоциута науки»), он приводит к тому, что CVS соответствует результатам.

Для этого мне нужно преобразовать msword-93 / msword-2007 / pdf для текста и кормить lucene.

Я могу получить текст из документов msword2007, но я не могу получить от Msword 2003.

Есть много писателей PDF, но я не получил никакой библиотеки читателей PDF, которая может это сделать.

Пожалуйста, бросьте немного света на библиотеке PDF Reader и конвертируя документы MS93 в текст или пожалуйста, дайте мне знать, если какие-либо альтернативы для поиска Лусина.

Спасибо, большое спасибо за ответы

Это было полезно?

Решение

Вы можете использовать apache solr или напрямую Tika Чтобы извлечь текст из PDFS и MS Word и index.Оба проекта Java, но вы можете вызвать их сервер из PHP.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top