문제

많은 웹 페이지를 색인해야합니다. 어떤 좋은 WebCrawler 유틸리티가 있습니까? 나는 .net이 말할 수있는 무언가 후에, 그러나 그것은 Showstopper가 아닙니다.

내가 정말로 필요로하는 것은 사이트 URL을 제공 할 수있는 것입니다. 모든 링크를 따르고 인덱싱 컨텐츠를 저장합니다.

도움이 되었습니까?

해결책

httrack - http://www.httrack.com/ - 아주 좋은 웹 사이트 복사기입니다. 꽤 잘 작동합니다. 오랫동안 사용해 왔습니다.

Nutch는 웹 크롤러입니다 (크롤러는 원하는 프로그램 유형) - http://lucene.apache.org/nutch/ - 최고 수준 검색 유틸리티 Lucene을 사용합니다.

다른 팁

Crawler4J 오픈 소스 Java Crawler로 웹 크롤링을위한 간단한 인터페이스를 제공합니다. 5 분 안에 멀티 스레드 웹 크롤러를 설정할 수 있습니다.

자신의 필터를 페이지를 방문하거나 (URL) 방문하도록 설정하고 논리에 따라 크롤링 된 각 페이지에 대해 일부 작업을 정의 할 수 있습니다.

crawler4J를 선택 해야하는 몇 가지 이유;

  1. 다중 스레드 구조,
  2. 깊이를 크롤링하도록 설정할 수 있습니다.
  3. Java 기반 및 오픈 소스이며
  4. 중복 링크 (URL) 제어,
  5. 크롤링 할 페이지 수를 설정할 수 있습니다.
  6. 페이지 크기를 크롤링하도록 설정할 수 있습니다.
  7. 충분한 문서

searcharoo.net 컨텐츠를 크롤링하고 색인하는 거미와이를 사용할 수있는 검색 엔진이 들어 있습니다. SearchAroo.indexer.exe 코드를 찾아내어 내용을 다운로드 할 때 컨텐츠를 추적하고 자신의 사용자 정의 코드를 추가 할 수 있어야합니다.

매우 기본적입니다 (모든 소스 코드가 포함되어 있으며 6 개의 CodeProject 기사에 설명되어 있으며 가장 최근에는 여기에 있습니다. searcharoo v6) : 스파이더는 링크, imagemaps, 이미지, 순종 로봇 지시문을 따르고 일부 비 HTML 파일 유형을 구문 분석합니다. 단일 웹 사이트 (전체 웹이 아님) 용입니다.

Nutch/Lucene은 거의 확실히 더 강력한/상업용 급 솔루션이지만 코드를 보지 못했습니다. 당신이 무엇을 성취하고 싶은지 잘 모르겠지만, 또한 당신도 보았습니까? Microsoft Search Server Express?

면책 조항 : 저는 Searcharoo의 저자입니다. 여기서 옵션으로 제공하십시오.

스피드 꽤 좋습니다. PHP이지만 도움이 될 수 있습니다.

나는 사용한다 Mozenda의 웹 스크래핑 소프트웨어. 당신은 쉽게 모든 링크를 크롤링하고 필요한 모든 정보를 가져갈 수 있으며 돈을위한 훌륭한 소프트웨어입니다.

나는 이것을 아직 사용하지 않았지만 이것 흥미로워 보입니다. 저자는 처음부터 그것을 썼고 그가 어떻게했는지 게시했습니다. 코드는 다운로드 할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top