使用哪种编程语言是Googlebot(或任何其他高效的网络爬虫)?
-
08-07-2019 - |
题
有谁知道Googlebot是用哪种编程语言编写的?
或者,更一般地说,哪种语言是高效的网络抓取工具?
我见过许多Java语言,但在我看来,开发网络爬虫并不是最合适的语言,因为它会产生太多的开销(尝试使用Heritrix网络爬虫,而且非常繁重)
解决方案
最早的版本,Backrub,是用Python和Java编写的。
其他提示
这可能会有所帮助。原始谷歌论文。
不了解GoogleBot(很可能是C或Python),但Java和.NET都有一些好的。
比较流行的开源选项之一是Nutch(经常与Lucene一起使用)。
Nutch本身就是用Java编写的,效率很高。还有一个名为Nutch.NET的.NET端口。
我认为这种语言不像具体实施那么重要。
您在Java中担心什么样的开销?记忆,处理能力?
不隶属于 StackOverflow