Solr에서 ODT 파일 색인 생성 및 액세스

https://stackoverflow.com//questions/22068531

23-12-2019
|

문제

MY SOLR_HOME 디렉토리에 저장된 ODT 파일 내의 콘텐츠를 게시, 색인 및 검색 할 수 있습니까?

아래의 언급 된 페이지를 이해하고 적용하고 스키마에 본문 필드를 포함 시켰습니다.

ResourceName 필드에는 파일 위치가 있지만 콘텐츠 필드가 비어 있습니다. 그러나 파일이 인덱싱되고 변경 사항이 커밋되었음을 보여 주더라도 파일 내용을 검색 할 수 없습니다. 그러한 요구 사항을위한 최종 문서가 끝나는 것입니다. 나는 Linux 기계에서 tomcat로 solr을 사용하고 있습니다. 나는 Solr의 초보자이며 위의 페이지에서 언급되지 않은 자세한 내용이 없습니다.

해결책

Apache Tika를 사용하여 콘텐츠를 추출하고 Solr

로 보내십시오.

Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");

String content = tika.parseToString(fileInputStream, metadata);

optify ExtractingRequestHandler

을 사용할 수도 있습니다.

다른 팁

Apache Tika가 필요했습니다. Apache Tika 다운로드

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow