Googlebot(またはその他の効率的なWebクローラー)はどのプログラミング言語で記述されていますか?

StackOverflow https://stackoverflow.com/questions/1638973

  •  08-07-2019
  •  | 
  •  

質問

Googlebotがどのプログラミング言語で書かれているかを知っている人はいますか?

または、より一般的には、どの言語で効率的なWebクローラーが記述されていますか

私はJava言語で多くを見てきましたが、Webクローラーを開発するのに最適な言語ではないようです。これは、オーバーヘッドが大きすぎるためです(Heritrix Webクローラーで試してみましたが、非常に重いです) 。

役に立ちましたか?

解決

非常に初期のバージョン、Backrub、はPythonおよびJavaで記述されました

>

他のヒント

教育的な推測はPythonです。彼らは作成者を雇います。ただし、クローラーはおそらく MapReduce を利用する分散アプリであると想像できます。実際にはC / C ++アプリケーションである可能性があります。

ただし、これはポイントのほかです。多くの異なる言語で効率的なWebクローラーを作成しても、同じ結果が得られます。ハンマーは、たとえ黄色または青色のハンマーであっても、釘を打ち続けます。好きな色を選んで正しく使いましょう。

これは役立つかもしれません。元のGoogleペーパー。

http://infolab.stanford.edu/~backrub/google.html

GoogleBot(おそらくCまたはPython)については知りませんが、Javaと.NETの両方に優れたものがあります。

より一般的なオープンソースオプションの1つは、Nutch(Luceneでよく使用されます)です。

Nutch自体はJavaで記述されており、かなり効率的です。 Nutch.NETと呼ばれる.NETポートもあります。

言語は特定の実装ほど重要ではないと思います。

Javaではどのようなオーバーヘッドが心配ですか?メモリ、処理能力?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top