문제
Google 인덱싱에 종종 필요한 품질을 결정할 수있는 좋은 오픈 소스 봇을 찾고 있습니다.
예를 들어
- 중복 제목을 찾으십시오
- 유효하지 않은 링크 (JSPIDER 가이 작업을 수행하면 더 많은 일을 할 것이라고 생각합니다)
- 정확히 같은 페이지이지만 다른 URL입니다
- 등, 등의 등은 Google 품질 레크와 같습니다.
해결책
귀하의 요구 사항은 매우 구체적이므로 원하는 것을 정확하게 수행하는 오픈 소스 제품이 거의 없을 것입니다.
그러나 웹 크롤러 구축을위한 많은 오픈 소스 프레임 워크가 있습니다. 사용하는 것은 언어 선호도에 따라 다릅니다.
예를 들어:
일반적으로 이러한 프레임 워크는 귀하가 제공하는 규칙에 따라 사이트의 페이지를 크롤링 및 스크래핑하기위한 클래스를 제공하지만 자신의 코드로 연결하여 필요한 데이터를 추출하는 것은 귀하에게 달려 있습니다.
다른 팁
Google 웹 마스터 도구 웹 기반 서비스 (주문형 봇이 아닌)이며, 요청한 모든 것을 수행하지는 않지만 그 중 일부와 여러분이 요구하지 않은 많은 일을합니다. Google에서 온다는 것은 의심 할 여지없이 당신의 홀수와 일치합니다. "등, 등은 Google 품질 레크와 동일합니다." 다른 곳보다 낫습니다.
제휴하지 않습니다 StackOverflow