Pergunta

Eu estou olhando para a construção de algumas armazenamento de dados/consultar infra-estrutura, agora em cima de Mapear/Reduzir soluções, como o Hadoop.

No entanto, parece-me que todos os M/R de trabalho está apenas repetindo o que o RDBMS caras resolveram nos últimos 20 anos paralelo com bancos de dados SQL.Paralelo implementações SQL escala lê e escreve em nós, assim como M/R, mas além disso, já contém as sutilezas regular de bases de dados (SQL existente e de integração de bibliotecas, etc.).

O problema é:você não parece encontrar os clientes dessas empresas postar muito online.Então, alguém aqui tem experiência com esses tipos de soluções, e pode me dar algumas dicas e/ou links?

Foi útil?

Solução

Eu tenho usado Netezza e o Hadoop.E têm de segunda mão do conhecimento de Infobright, uma coluna de banco de dados.

Netezza é um verdadeiro banco de dados e implementa propriedades ACID, que tem um custo e um benefício.Netezza está se movendo na direção, permitindo que mais M/R código para executar em sua tabela de dados com a nova arquitetura de twinfin.Na versão anterior do aparelho que suporte a funções definidas pelo usuário e agregações.Na nova versão, que roda linux no SPUs e utiliza processadores da Intel, a porta abre-se para fazer mais de um código personalizado perto de dados.Minha experiência com a Netezza tem sido muito positiva, tanto a tecnologia e a sociedade.

O Hadoop é puro mapa-reduzir computação.Ele não incorrer no custo de ÁCIDO propriedades de banco de dados.Então, realmente é um animal diferente do que Netezza.Dependendo do padrão de utilização pode ser melhor e certamente mais barato do que Netezza.Hadoop tinha suporta o Hbase e Ramo de registo que pode dar-lhe a consulta a conveniência que você precisa a um baixo custo.

Outro desenvolvedor em nossa equipe avaliada Infobright, de modo que este é de segunda mão, e concluiu que o desempenho do carregamento a ser pobres e algumas das agregações para ser lento.Ele tem alguns paralelos com Netezza (e.g.zona mapas são utilizados em netezza para ajudar a limitar verificação de escopo).Infobright é open source com uma comunidade e suportado enterprise edition.

Há muito mais que pode ser dito no contexto do seu problema, provavelmente além do escopo deste fórum.Espero que isso ajude.

Outras dicas

Você não especificou quais perguntas está tentando responder com suas consultas ou como seus dados estão estruturados. Antes de escolher qual solução você provavelmente precisa pensar nessas duas coisas.

Você está correto: os principais fornecedores de RDBMs oferecem soluções de cluster; tanto para processamento paralelo quanto alta disponibilidade. Eles têm essa tecnologia há um tempo e qualquer empresa com muitos dados provavelmente o está usando. Ao comprar ($$$), o produto, eles lhe darão muita documentação e o ajudarão a configurá -lo (mais $$$), se você puder pagar.

RDBMS são bons para transações on -line (OLTP); Respondendo a perguntas sobre linhas específicas (onde Maria mora?); Respondendo a algumas perguntas do tipo resumo (quanto vendemos no primeiro trimestre, etc.), embora possam ser feitas para realizar perguntas sumárias detalhadas (quanto vendemos no primeiro trimestre, quebrado por produto, vendedor, mês, mês, e região?), Você geralmente está começando a tributar seus limites (alguma consulta que precisa visitar todas as linhas será lenta).

Para esses tipos de consultas, a maioria das empresas possui um data warehouse que estrutura os dados em "cubos" multidimensionais. (Veja Cognos, Hyperion, outros). Isso pode ser apropriado para o que você está tentando fazer.

Não tenho nenhuma experiência com o MapReduce, mas li a seção da Wikipedia sobre Usos E se o que você está tentando fazer se enquadra nessas categorias, eu continuará com isso.

Se você estiver em uma organização em crescimento rápido, deve usar o Teradata. Nós realmente temos uma boa experiência com Teradata. Dá a você a escalabilidade que não pode ser dada por nenhum outro fornecedor. Depois de se acostumar com o seu SQL e o estilo de trabalho, você realmente apreciará o design e a arquitetura da Teradata.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top