arXiv电子印刷档案有来自各个科学领域的数TB的论文。一些用户希望在他们自己的计算机上维护这些数据的完整副本,而其他用户只想下载特定类别的最新论文。他们希望使用某种分布式下载系统(例如BitTorrent)来减少带宽负荷。我正在寻找能够涵盖所有这些的程序或程序集的想法。

有帮助吗?

解决方案

完整的pdf内容在亚马逊云中。

虽然有<!> gt;关于arXiv的600k论文pdf的总大小是<!> lt; 1/2 TB

http://arxiv.org/help/bulk_data_s3

吨。

其他提示

arXiv推荐鱿鱼在httpd加速器模式下正是为了这个目的。有什么特别的原因导致这不够好吗?

我的第一个想法是,这看起来很像Usenet新闻组,对服务器上的消息具有无限的持久性。不过,我不知道它对PDF的效果如何。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top