Googlebot은 어떤 프로그래밍 언어 (또는 다른 효율적인 웹 크롤러)입니까?

StackOverflow https://stackoverflow.com/questions/1638973

  •  08-07-2019
  •  | 
  •  

문제

Googlebot이 어떤 프로그래밍 언어로 작성되었는지 아는 사람이 있습니까?

또는 더 일반적으로 어떤 언어에서 효율적인 웹 크롤러가 쓰여 있습니까?

나는 Java 언어로 많은 것을 보았지만 웹 크롤러를 개발하는 것이 가장 적절한 언어로 보이지는 않습니다 (Heritrix Web-Crawler와 함께 시도하고 매우 무겁습니다).

도움이 되었습니까?

해결책

가장 초기 버전 인 백 루어, Python과 Java로 작성되었습니다.

다른 팁

교육받은 추측은 파이썬입니다. 그들 그것의 창조자를 고용하십시오. 그러나 나는 그들의 크롤러가 아마도 Mapreduce, 이 경우 실제로 C/C ++ 응용 프로그램 일 수 있습니다.

그러나 이것은 요점 외에 있습니다. 다양한 언어로 효율적인 웹 크롤러를 작성할 수 있으며 여전히 동일한 결과를 얻을 수 있습니다. 망치는 노란색 또는 파란색 망치라도 여전히 못을 박습니다. 좋아하는 색상을 선택하고 올바르게 사용하십시오.

이것은 도움이 될 수 있습니다. 오리지널 Google 논문.

http://infolab.stanford.edu/~backrub/google.html

GoogleBot (대부분 C 또는 Python)에 대해 모르지만 Java와 .NET에는 좋은 것들이 있습니다.

가장 인기있는 오픈 소스 옵션 중 하나는 Nutch (종종 루센과 함께 사용)입니다.

Nutch 자체는 Java로 글을 쓰고 있으며 상당히 효율적입니다. Nutch.net이라는 .NET 포트도 있습니다.

나는 언어가 특정 구현만큼 중요하지 않다고 생각합니다.

Java에서 어떤 오버 헤드에 대해 걱정하고 있습니까? 메모리, 처리 전력?

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top