Em qual linguagem de programação o Googlebot está escrito (ou qualquer outro crawler da Web eficiente)?

StackOverflow https://stackoverflow.com/questions/1638973

  •  08-07-2019
  •  | 
  •  

Pergunta

Alguém sabe em qual linguagem de programação o Googlebot foi escrito?

Ou, de maneira mais geral, em qual idioma são eficientes que são escritos?

Eu já vi muitos no idioma Java, mas não me parece o idioma mais apropriado desenvolver um rastreador da web, porque cria muita sobrecarga (tentada com a Heritrix Web-Crawler, e é extremamente pesado).

Foi útil?

Solução

A versão mais antiga, backrub, foi escrito em Python e Java.

Outras dicas

Um palpite educado é Python. Elas Empregue o criador disso. No entanto, posso imaginar que o rastreador deles provavelmente é um aplicativo distribuído que tira proveito de MapReduce, nesse caso, pode realmente ser um aplicativo C/C ++.

Isso está além do ponto, no entanto. Você pode escrever um rastreador da Web eficiente em muitos idiomas diferentes e ainda obter o mesmo resultado. Um martelo ainda acertará uma unha, mesmo que seja um martelo amarelo ou azul. Escolha sua cor favorita e use -a corretamente.

Isso pode ajudar. Papel do Google original.

http://infolab.stanford.edu/~backrub/google.html

Não sei sobre o Googlebot (provavelmente C ou Python), mas existem alguns bons por aí em Java e .Net.

Uma das opções de código aberto mais populares é o Nutch (geralmente usado com o Lucene).

O próprio Nutch está escrita em Java e é bastante eficiente. Há também uma porta .NET chamada NUTCH.NET.

Não acho que o idioma importe tanto quanto a implementação específica.

Com que tipo de despesas gerais você está preocupado em Java? Memória, poder de processamento?

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top