ArXiv复制头脑风暴

https://stackoverflow.com/questions/1206166

05-07-2019
|

题

arXiv电子印刷档案有来自各个科学领域的数TB的论文。一些用户希望在他们自己的计算机上维护这些数据的完整副本，而其他用户只想下载特定类别的最新论文。他们希望使用某种分布式下载系统（例如BitTorrent）来减少带宽负荷。我正在寻找能够涵盖所有这些的程序或程序集的想法。

解决方案

完整的pdf内容在亚马逊云中。

虽然有<！> gt;关于arXiv的600k论文pdf的总大小是<！> lt; 1/2 TB

http://arxiv.org/help/bulk_data_s3

吨。

其他提示

arXiv推荐鱿鱼在httpd加速器模式下正是为了这个目的。有什么特别的原因导致这不够好吗？

我的第一个想法是，这看起来很像Usenet新闻组，对服务器上的消息具有无限的持久性。不过，我不知道它对PDF的效果如何。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow