Em qual linguagem de programação o Googlebot está escrito (ou qualquer outro crawler da Web eficiente)?
-
08-07-2019 - |
Pergunta
Alguém sabe em qual linguagem de programação o Googlebot foi escrito?
Ou, de maneira mais geral, em qual idioma são eficientes que são escritos?
Eu já vi muitos no idioma Java, mas não me parece o idioma mais apropriado desenvolver um rastreador da web, porque cria muita sobrecarga (tentada com a Heritrix Web-Crawler, e é extremamente pesado).
Solução
A versão mais antiga, backrub, foi escrito em Python e Java.
Outras dicas
Um palpite educado é Python. Elas Empregue o criador disso. No entanto, posso imaginar que o rastreador deles provavelmente é um aplicativo distribuído que tira proveito de MapReduce, nesse caso, pode realmente ser um aplicativo C/C ++.
Isso está além do ponto, no entanto. Você pode escrever um rastreador da Web eficiente em muitos idiomas diferentes e ainda obter o mesmo resultado. Um martelo ainda acertará uma unha, mesmo que seja um martelo amarelo ou azul. Escolha sua cor favorita e use -a corretamente.
Isso pode ajudar. Papel do Google original.
Não sei sobre o Googlebot (provavelmente C ou Python), mas existem alguns bons por aí em Java e .Net.
Uma das opções de código aberto mais populares é o Nutch (geralmente usado com o Lucene).
O próprio Nutch está escrita em Java e é bastante eficiente. Há também uma porta .NET chamada NUTCH.NET.
Não acho que o idioma importe tanto quanto a implementação específica.
Com que tipo de despesas gerais você está preocupado em Java? Memória, poder de processamento?