Pergunta

Alguém pode me aponte uma referência ou fornecer uma visão de alto nível de como as empresas como Facebook, Yahoo, Google, etc al executar o grande escala (e.g.multi-TB intervalo) de análise de log que eles fazem para as operações e, especialmente, web analytics?

Com foco em web analytics, em particular, estou interessado em dois intimamente relacionadas com aspectos:o desempenho da consulta e armazenamento de dados.

Eu sei que a abordagem geral é a utilização de mapa de reduzir a distribuir a cada consulta de mais de um cluster (por exemplo,usando o Hadoop).No entanto, qual é o mais eficiente, o formato de armazenamento para usar?Este é o registo de dados, de modo que podemos supor que cada evento tem um carimbo de hora, e que, em geral, os dados são estruturados e não disperso.A maioria dos web analytics consultas envolvem a análise de fatias de dados entre dois arbitrário carimbos de data / hora e obtenção de estatísticas agregadas ou anomalias nos dados.

Seria uma coluna orientada DB como Grande Mesa (ou HBase) ser uma maneira eficiente para armazenar e, mais importante ainda, a consulta de dados?O fato de que você está selecionando um subconjunto de linhas (com base no carimbo de data / hora) trabalho contra a premissa básica deste tipo de armazenamento?Seria melhor para armazená-los como dados não estruturados, por exemplo.o inverso de um índice?

Foi útil?

Solução

Infelizmente, não há um tamanho único para todas as respostas.

Atualmente, estou usando em Cascata, Hadoop, S3 e o Aster Data para processo de 100 Shows por dia, através de estágios de pipeline dentro da AWS.

Aster Dados é utilizada para consultas e relatórios, uma vez que fornece uma interface SQL para o enorme conjuntos de dados limpo e analisado pela Cascata de processos no Hadoop.Usando o menu em Cascata JDBC interfaces, carregamento de Dados Aster é bastante trivial processo.

Tenha em mente ferramentas como o HBase e Hypertable são a Chave/Valor lojas, então não faça consultas ad-hoc e associações sem a ajuda de um MapReduce/Cascata aplicativo para realizar as associações de banda, o que é muito útil padrão.

em plena divulgação, eu sou um desenvolvedor no projeto em Cascata.

http://www.asterdata.com/

http://www.cascading.org/

Outras dicas

O livro Hadoop: O Guia Definitivo de O'Reilly tem um capítulo que discute como o Hadoop é usado em duas empresas do mundo real.

http://my.safaribooksonline.com/9780596521974/ch14

Dê uma olhada no jornal Interpretando os dados: análise paralela com Sawzall pelo Google. Este é um artigo sobre a ferramenta que o Google usa para análise de log.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top