Dans quel langage de programmation le Googlebot est-il écrit (ou tout autre crawler Web efficace)?
-
08-07-2019 - |
Question
Quelqu'un sait-il dans quel langage de programmation le Googlebot a été écrit?
Ou, plus généralement, dans quelle langue les robots d’analyse Web efficaces sont-ils écrits?
J'en ai vu beaucoup en langage Java, mais il ne me semble pas que le langage le plus approprié pour développer un robot d'indexation Web, car il crée beaucoup trop de temps système (essayé avec Heritrix, également extrêmement lourd) .
La solution
La toute première version, Backrub, a été écrite en Python et en Java .
Autres conseils
Python est une supposition éclairée. Ils en utilisent le créateur . Cependant, je peux imaginer que leur robot est probablement une application distribuée qui tire parti de MapReduce , dans laquelle Au cas où cela pourrait en fait être une application C / C ++.
Ceci est en dehors du point, cependant. Vous pouvez écrire un crawler Web efficace dans de nombreuses langues et obtenir le même résultat. Un marteau frappera toujours un clou, même s'il s'agit d'un marteau jaune ou bleu. Choisissez votre couleur préférée et utilisez-la correctement.
Cela pourrait aider. Papier Google original.
Je ne connais pas GoogleBot (très probablement C ou Python), mais il en existe de bons en Java et en .NET.
L’une des options open source les plus populaires est Nutch (souvent utilisée avec Lucene).
Nutch écrit lui-même en Java et est assez efficace. Il existe également un port .NET appelé Nutch.NET.
Je ne pense pas que le langage importera autant que la mise en œuvre spécifique.
Quel type de frais généraux vous inquiète-t-il en Java? mémoire, puissance de traitement?