In welcher Programmiersprache wird der GoogleBot (oder eine andere effiziente Web-Crawler) geschrieben?

StackOverflow https://stackoverflow.com/questions/1638973

  •  08-07-2019
  •  | 
  •  

Frage

Weiß jemand, in welcher Programmiersprache der GoogleBot geschrieben wurde?

Oder allgemeiner, in welcher Sprache sind effiziente Web-Crawler geschrieben?

Ich habe viele in der Java-Sprache gesehen, aber es scheint mir nicht die am besten geeignete Sprache, um einen Web-Crawler zu entwickeln, da es viel zu viel Overhead erzeugt (mit Heritrix Web-Crawler versucht und extrem schwer ist).

War es hilfreich?

Lösung

Die sehr früheste Version, BackRub, wurde in Python und Java geschrieben.

Andere Tipps

Eine gebildete Vermutung ist Python. Sie beschäftigen den Schöpfer davon. Ich kann mir jedoch vorstellen, dass ihr Crawler wahrscheinlich eine verteilte App ist, die die Vorteile nutzt Karte verkleinern, In diesem Fall kann es sich tatsächlich um eine C/C ++ - Anwendung handeln.

Dies ist jedoch nicht der Punkt. Sie können einen effizienten Web-Crawler in vielen verschiedenen Sprachen schreiben und trotzdem das gleiche Ergebnis erzielen. Ein Hammer schlägt immer noch einen Nagel, selbst wenn es sich um einen gelben oder blauen Hammer handelt. Wählen Sie Ihre Lieblingsfarbe und verwenden Sie sie richtig.

Dies könnte helfen. Original Google Paper.

http://infolab.stanford.edu/~backrub/google.html

Ich weiß nichts über GoogleBot (höchstwahrscheinlich C oder Python), aber es gibt einige gute da draußen sowohl in Java als auch in .NET.

Eine der beliebtesten Open -Source -Optionen ist Nutch (oft mit Lucene verwendet).

Nutch selbst schreibt in Java und ist ziemlich effizient. Es gibt auch einen .NET -Anschluss namens Nutch.net.

Ich denke nicht, dass die Sprache so wichtig ist wie die spezifische Implementierung.

Was für ein Overhead sind Sie in Java besorgt? Speicher, Verarbeitungsleistung?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top