ArXiv Replikation Brainstorming

https://stackoverflow.com/questions/1206166

05-07-2019
|

Frage

Das arXiv e-print-Archiv hat mehrere Terabyte Papiere aus verschiedenen Bereichen der Wissenschaft. Einige Benutzer möchten eine vollständige Kopie dieser Daten auf ihren eigenen Computern halten, während andere nur die letzten Papiere in einer bestimmten Kategorie herunterladen möchten. Sie suchen Bandbreite Last mit einer Art von verteilten Download-System (zum Beispiel BitTorrent) zu reduzieren. Ich bin auf der Suche nach Ideen für ein Programm oder eine Reihe von Programmen, die dies alles abdecken würden.

Lösung

PDF Format Inhalt ist in der Amazon Cloud.

, während es> 600k Papiere auf arXiv die Gesamtgröße des pdf ist <1/2 TB

http://arxiv.org/help/bulk_data_s3

Andere Tipps

arXiv Tintenfisch in httpd Beschleuniger-Modus empfiehlt für genau diese Zweck. Ein besonderer Grund, warum dies nicht gut genug ist?

Meine erste Idee ist, dass dies eine ganze Menge, wie Usenet-Newsgroup sieht, mit unendlicher Ausdauer für Nachrichten auf den Servern. Ich weiß nicht, wie gut es mit PDF-Dateien funktioniert, though.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow