루카 검색을위한 좋은 대안은 무엇입니까?

문제

나는 수천 개의 CV를 가지고 있으며, 나는 '컴퓨터 과학'을 배경으로하는 CVS를 검색하고 싶다.

그래서, 나는 루신 이이 일을하고, 나는 데이터를 루센에 공급하고 모든 문서를 인덱스해야한다는 것을 알아야한다.

특정 텍스트를 검색하면 ( 'Compuet Science'라고해도) 결과와 일치하는 CVS가 발생합니다.

이를 위해 Msword-93 / Msword-2007 / PDF를 텍스트 및 공급 루센으로 변환해야합니다.

Msword2007 문서에서 텍스트를 꺼낼 수는 있지만 Msword 2003에서 얻을 수 없습니다.

많은 PDF 작성자가 있지만이 작업을 수행 할 수있는 PDF 리더 라이브러리를 얻지 못했습니다.

PDF 리더 라이브러리에 조명을 던지고 MS93 문서를 텍스트로 변환하거나 Lucene 검색을위한 대안이 있는지 알려주십시오.

고마워, 대답을 주셔서 감사합니다

해결책

Apache Solr 또는 직접 티카 pdfs 및 ms 단어에서 텍스트를 추출하고 색인을 인덱싱합니다.둘 다 Java 프로젝트이지만 PHP에서 서버를 호출 할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow