스파이더 링 도구에 대한 권장 사항 Lucene 또는 Solr와 함께 사용할 수 있습니까? [닫은

https://stackoverflow.com/questions/282654

08-07-2019
|

문제

HTML 및 XML 문서 (로컬 또는 웹 기반)에 사용하기에 좋은 크롤러 (Spider)는 무엇이며 Lucene / Solr 솔루션 공간에서 잘 작동합니까? Java 기반이 될 수는 있지만 그럴 필요는 없습니다.

해결책

제 생각에는 이것은 널리 퍼진 Solr의 채택을 유지하는 꽤 중요한 구멍입니다. 새로운 DataImporthandler는 구조화 된 데이터를 가져 오기위한 좋은 첫 단계이지만 Solr 용 좋은 문서 섭취 파이프 라인은 없습니다. Nutch는 효과가 있지만 Nutch Crawler와 Solr의 통합은 다소 서투른 것입니다.
나는 내가 찾을 수있는 모든 오픈 소스 크롤러를 시도했지만, 그 중 어느 것도 상자 외부를 Solr과 통합하지 않습니다.
OpenPipeline과 Apache Tika를 주시하십시오.

다른 팁

나는 Nutch를 시도했지만 Solr과 통합하는 것은 매우 어려웠습니다. 헤리트릭스를 살펴 보겠습니다. Solr과 쉽게 통합 할 수있는 광범위한 플러그인 시스템이 있으며 크롤링에서 훨씬 빠릅니다. 프로세스 속도를 높이기 위해 스레드를 광범위하게 사용합니다.

체크 아웃하는 것이 좋습니다 비트 영감을 얻으려면 :

Nutch는 오픈 소스 웹 검색 소프트웨어입니다. Lucene Java를 기반으로 Crawler, 링크 그래프 데이터베이스, HTML 용 구문 분석기 및 기타 문서 형식 등과 같은 웹 특정를 추가합니다.

또한 아파치 드로이드를 확인하십시오 [http://incubator.apache.org/droids/ - 이것은 단순한 거미/크롤러/작업자 프레임 워크가 아니기를 희망합니다.

그것은 새롭고 선반에서 사용하기가 쉽지 않습니다 (달리기를 위해서는 트위 킹이 필요합니다).

Nutch는 가장 가까운 경기 일지 모르지만 너무 유연하지는 않습니다.

더 필요하면 자신의 크롤러를 거의 해킹해야합니다. 모든 언어에는 웹 라이브러리가 있으므로 HTTP 다운로더 및 HTML 파서와 함께 작업 대기열 관리자를 연결하면됩니다. 실제로 그다지 효과가 없습니다. 크롤링은 대부분 CPU 집약적이 아니라 대역폭 의도적이기 때문에 단일 상자로 도망 갈 수 있습니다.

http://arachnode.net

C#이지만 Lucene (Java 및 C#) 소모품 인덱스 파일을 생성합니다.

Xapian을 시도한 사람이 있습니까? Solr보다 훨씬 빠르고 C ++로 작성되었습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow