Dans quel langage de programmation le Googlebot est-il écrit (ou tout autre crawler Web efficace)?

StackOverflow https://stackoverflow.com/questions/1638973

  •  08-07-2019
  •  | 
  •  

Question

Quelqu'un sait-il dans quel langage de programmation le Googlebot a été écrit?

Ou, plus généralement, dans quelle langue les robots d’analyse Web efficaces sont-ils écrits?

J'en ai vu beaucoup en langage Java, mais il ne me semble pas que le langage le plus approprié pour développer un robot d'indexation Web, car il crée beaucoup trop de temps système (essayé avec Heritrix, également extrêmement lourd) .

Était-ce utile?

La solution

La toute première version, Backrub, a été écrite en Python et en Java .

Autres conseils

Python est une supposition éclairée. Ils en utilisent le créateur . Cependant, je peux imaginer que leur robot est probablement une application distribuée qui tire parti de MapReduce , dans laquelle Au cas où cela pourrait en fait être une application C / C ++.

Ceci est en dehors du point, cependant. Vous pouvez écrire un crawler Web efficace dans de nombreuses langues et obtenir le même résultat. Un marteau frappera toujours un clou, même s'il s'agit d'un marteau jaune ou bleu. Choisissez votre couleur préférée et utilisez-la correctement.

Cela pourrait aider. Papier Google original.

http://infolab.stanford.edu/~backrub/google.html

Je ne connais pas GoogleBot (très probablement C ou Python), mais il en existe de bons en Java et en .NET.

L’une des options open source les plus populaires est Nutch (souvent utilisée avec Lucene).

Nutch écrit lui-même en Java et est assez efficace. Il existe également un port .NET appelé Nutch.NET.

Je ne pense pas que le langage importera autant que la mise en œuvre spécifique.

Quel type de frais généraux vous inquiète-t-il en Java? mémoire, puissance de traitement?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top