Lucene, Solr 또는 Nutch를 사용하여 간단한 검색 엔진을 어떻게 만들 수 있습니까?

https://stackoverflow.com/questions/223536

03-07-2019
|

문제

우리 회사에는 수천 개의 PDF 문서가 있습니다. Lucene, Solr 또는 Nutch를 사용하여 간단한 검색 엔진을 어떻게 만들 수 있습니까? 우리는 사람들이 단어를 입력하고 기본 및/또는 쿼리를 수행 한 다음 모든 일치하는 PDF의 문서 링크를 보여줄 수있는 기본 Java/JSP 웹 페이지를 제공합니다.

해결책

루센 가족의 프로젝트 중 어느 것도 기본적으로 PDF를 처리 할 수는 없지만, 탈락 할 수있는 유틸리티가 있으며 자신의 롤링 방법에 대한 잘 작성된 예제가 있습니다.

Lucene은 당신이해야 할 일을 거의 할 것입니다. 그러나 Tony가 위에서 말했듯이 당신의 시간 측면에서 오버 헤드가 있습니다. 수천 개의 문서는 실제로 그렇지 않습니다 저것 많은 사람들은 가벼운 무게 대안으로 도망 갈 수 있습니다.

즉, 여전히 Solr을 보는 것이 좋습니다. Lucene보다 설정하는 것이 훨씬 쉽고, 백업, 복제 등을 지원하는 것이 훨씬 쉽습니다. http://wiki.apache.org/solr/soljson

다른 팁

나는 Lucene과 행운을 빕니다. 그러나 클릭, 설치 및 검색은 아니며 약간의 작업이 필요합니다.
10 분 이내에 다운로드하고 설치하고 검색 할 수있는 것이 필요한 경우 무료 Ominifind Yahoo Edition을보십시오. http://omnifind.ibm.yahoo.net/, 그것은 루센을 사용하지만 설치시 구성되고 실행될 준비가되도록 패키지되어 루센을 시도하는 훨씬 쉬운 방법입니다.

Nutch + Lucene + PDF 플러그인은 Nutch에서 활성화 된 솔루션입니다. Nutch를 사용하면 PDF 플러그인을 활성화하여 PDF를 구문 분석 할 수 있습니다.

Lucene은 크롤링 및 구문 분석 데이터를 색인화 할 수 있으며 Nutch는 Servelet이있어 검색 인터페이스를 제공합니다.

우리는 내부 LAN에도 동일하게 사용합니다.

Google 검색 어플라이언스 http://www.google.com/enterprise/gsa/

PDF 파일을 관리 할 시스템을 원한다고 생각합니다. dspace 시스템을 사용해보십시오. DSPACE는 디지털 라이브러리이며 Lucene을 기반으로 지원합니다. www.dspace.org.

보세요 eprints. 여기에는 새 문서, 자동 인덱스 및 썸네일 PDF를위한 워크 플로가 포함되어 있으며 상당히 포괄적 인 전문 검색 기능이 있습니다. 또한 쉽게 사용자 정의하고 브랜드화 될 수 있습니다.

왜 바퀴를 재발 명합니다. 다시.

이 포럼에서 그러한 광범위한 질문에 대답하는 것은 어려울 것입니다. 책을 확인하는 것이 좋습니다 루센이 작동합니다, 이는 인덱싱 및 검색의 기본 사항을 매우 읽기 쉬운 방식으로 다룹니다.

귀하의 응용 프로그램이 주어지면 Nutch와 Solr이 필요하지 않을 것 같습니다. 모든 문서는 로컬로 제공되므로 Nutch는 아마도 도움이되지 않을 것입니다. Solr은 쿼리로드가 높은 경우 검색 자 클러스터를 관리하는 데 도움이 될 수 있지만 Lucene은 성능이 높고 대형 문서 세트를 매우 확장 가능한 방식으로 처리합니다.

많은 노력을 소비 할 수있는 영역 중 하나는 PDF를 사용하는 것입니다. PDF 문서를 색인 할 수 있으며 PDFS의 원시 텍스트 추출을 촉진하기위한 Lucene 기여, 그러나 문서에 따라 결과의 품질은 다를 수 있습니다. 종종 PDF 문서의 키워드의 맥락은 지침 서식으로 인해 불분명하며 근접성 검색을 수행하거나 히트의 컨텍스트를 표시하기가 어렵습니다.

당신이 볼 수있는 훌륭한 무료 검색 기술은 IBM Yahoo! 무료 검색. 그들이 커버에서 루센을 사용할 계획을 따라 갔는지 확실하지 않지만, 무료 검색 기술을 사용하기 위해 정말 위대한 동쪽 중 하나입니다. 최대 500K 문서를 처리하고 PDF 및 기타 비 텍스트 형식도 지원합니다. 그래픽 사용자 인터페이스; 검색 결과를 쉽게 사용자 정의 할 수 있으며 기본 검색 분석. 기본 동의어 사전 및 강력한 API를 통해 상자 결과가 좋아하지 않으면 원하는대로 거의 할 수 있습니다. 우리는 이것을 50 만 명 미만의 문서가있는 많은 고객에게 제안했으며 그것을 좋아합니다.

Linux 서버 인 경우 사용할 수 있습니다 비글 색인을 인덱싱 한 다음 함께 제공되는 검색 기능을 사용하십시오. (실험적인) 웹 검색 인터페이스가 있으며 Firefox 검색 상자에도 연결될 수 있습니다.

파일이 포함 된대로 파일을 자동으로 인덱싱하며 Lucene에 자신의 검색 인터페이스를 작성하는 것보다 Beagle을 향상 시키거나 수정하는 것이 훨씬 더 효율적이라고 생각합니다.

Mac에있는 (IMHO)의 뚜렷한 이점이 있으면 사용합니다. 탐조등 다소 오래된 G5에서. 스포트라이트를위한 멋진 웹 인터페이스, Mac OS의 내장 인덱싱 서비스.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow