Pergunta

Eu tenho um monte de servidores intel Linux peças, que volta (centenas) e quer usá-los para um sistema de arquivos distribuídos de hospedagem na web e ambiente de compartilhamento de arquivos. Isto não é para uma aplicação HPC, tão alto desempenho não é crítica. A principal exigência é alta disponibilidade, se um servidor ficar offline, os dados armazenados nele de discos rígidos ainda está disponível a partir de outros nós. Ele deve ser executado através de TCP / IP e fornecer permissões de arquivo POSIX padrão.

Eu olhei para o seguinte:

  • Luster ( http://wiki.lustre.org/index.php ? title = Main_Page ): Vem realmente perto, mas não fornece redundância de dados sobre um nó. Você deve fazer o HA dados usando RAID ou DRBD. Suportado pela Sun e Open Source, assim que deve ser em torno de um tempo

  • Gfarm ( http://datafarm.apgrid.org/ ): Parece que ele fornece a redundância, mas ao custo de complexidade e manutenção. Não tão bem suportado como Luster.

Alguém tem alguma experiência com estes ou quaisquer outros sistemas que o trabalho poder?

Foi útil?

Solução

GlusterFS

Editar (Aug-2012): Ceph finalmente está se preparando. Recentemente, os autores formado InkTank , uma empresa independente para vender suporte comercial para ele. De acordo com algumas presentaions, o sistema de ficheiros com POSIX montável é a camada superior, e não é testado ainda, mas as camadas inferiores estão a ser utilizados na produção já há algum tempo.

A parte interessante é a camada RADOS, que apresenta um armazenamento baseado em objeto com tanto um acesso 'nativo' através da biblioteca librados (disponível para várias línguas) e um RESP API Amazon S3 compatível. Qualquer um dos dois faz com que seja mais do que adequado para a adição de armazenamento em massa para um serviço web.

Este vídeo é uma boa descrição da filosofia, arquitetura, recursos e status atual .

Outras dicas

Na minha opinião, o melhor sistema de arquivos para Linux é MooseFS, é bastante nova, mas eu tive a oportunidade de compará-lo com Ceph e Luster e eu digo com certeza que MooseFS é o melhor.

Gluster está recebendo um monte de imprensa no momento:

http://www.gluster.org/

Se não alguém o obriga a usá-lo, eu também recomendo usar qualquer outra coisa do que Luster. Pelo que ouvi de outras pessoas e que também deu-me pesadelos por algum tempo é o fato de que Luster muito facilmente se decompõe em todos os tipos de situações. E se apenas um único cliente na hora do recreio sistema para baixo, coloca-se em um modo do_nothing_loop interminável normalmente, mantendo algum bloqueio global importante - então da próxima vez outro cliente tenta acessar a mesma informação, mas também irá travar. Assim, muitas vezes você acaba de reiniciar todo o cluster, que eu acho que é algo que você iria tentar evitar normalmente;)

sistemas de arquivos paralelos modernos como FhGFS (http://www.fhgfs.com) são a forma mais robusta aqui e também permitem que você faça coisas agradáveis ??como correr componentes servidor e cliente nas mesmas máquinas (embora recursos internos de HA ainda estão em desenvolvimento, como alguém de sua equipe me disse, mas a sua aplicação vai ser bastante impressionante do que eu ouvi).

Luster tem vindo a trabalhar para nós. Não é perfeito, mas é a única coisa que temos tentado que não foi quebrada sobre a carga. Nós ainda obter LBUGS ao longo do tempo e lidar com sistemas de arquivos 100TB + nunca é fácil, mas o sistema Luster tem trabalhado e aumento da performance e disponibilidade.

Ceph parece ser uma entrada nova-ish prometendo para a arena. As reivindicações do site não está pronto para uso em produção ainda though.

Eu li muito sobre sistemas de arquivos distribuídos e acho FhGFS é o melhor.

http://www.fhgfs.com/

Tente uma pena. Veja mais sobre ele em:

http://www.fhgfs.com/wiki/

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top