문제

Google 인덱싱에 종종 필요한 품질을 결정할 수있는 좋은 오픈 소스 봇을 찾고 있습니다.

예를 들어

  • 중복 제목을 찾으십시오
  • 유효하지 않은 링크 (JSPIDER 가이 작업을 수행하면 더 많은 일을 할 것이라고 생각합니다)
  • 정확히 같은 페이지이지만 다른 URL입니다
  • 등, 등의 등은 Google 품질 레크와 같습니다.
도움이 되었습니까?

해결책

귀하의 요구 사항은 매우 구체적이므로 원하는 것을 정확하게 수행하는 오픈 소스 제품이 거의 없을 것입니다.

그러나 웹 크롤러 구축을위한 많은 오픈 소스 프레임 워크가 있습니다. 사용하는 것은 언어 선호도에 따라 다릅니다.

예를 들어:

일반적으로 이러한 프레임 워크는 귀하가 제공하는 규칙에 따라 사이트의 페이지를 크롤링 및 스크래핑하기위한 클래스를 제공하지만 자신의 코드로 연결하여 필요한 데이터를 추출하는 것은 귀하에게 달려 있습니다.

다른 팁

Google 웹 마스터 도구 웹 기반 서비스 (주문형 봇이 아닌)이며, 요청한 모든 것을 수행하지는 않지만 그 중 일부와 여러분이 요구하지 않은 많은 일을합니다. Google에서 온다는 것은 의심 할 여지없이 당신의 홀수와 일치합니다. "등, 등은 Google 품질 레크와 동일합니다." 다른 곳보다 낫습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top