Brainstorming sur la réplication d'ArXiv

https://stackoverflow.com/questions/1206166

05-07-2019
|

Question

L’archive arXiv e-print contient plusieurs téraoctets de documents de divers domaines scientifiques. Certains utilisateurs souhaitent conserver une copie complète de ces données sur leurs propres ordinateurs, tandis que d'autres souhaitent simplement télécharger les articles les plus récents d'une catégorie donnée. Ils cherchent à réduire la charge de bande passante à l'aide d'un système de téléchargement distribué (par exemple, BitTorrent). Je cherche des idées pour un programme ou un ensemble de programmes qui couvrirait tout cela.

La solution

l'intégralité du contenu pdf se trouve sur le cloud amazonien.

alors qu'il y a > 600k papiers sur arXiv la taille totale du pdf est & Lt; 1/2 TB

http://arxiv.org/help/bulk_data_s3

Autres conseils

arXiv recommande squid en mode d'accélération httpd pour cela objectif. Une raison particulière pour laquelle cela n’est pas suffisant?

Ma première idée est que cela ressemble énormément aux groupes de discussion Usenet, avec une persistance infinie pour les messages sur les serveurs. Je ne sais pas si cela fonctionne bien avec les PDF, cependant.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow