La implementación a gran escala de análisis de archivos de registro

https://stackoverflow.com/questions/794885

18-09-2019
|

Pregunta

Puede alguien me punto de referencia o proporcionar una visión general de alto nivel de cómo las compañías como Facebook, Yahoo, Google, etc Al realizar la gran escala (por ejemplo, rango multi-TB) análisis de logs que hacen por las operaciones y en especial de análisis web ?

Centrándose en análisis web, en particular, estoy interesado en dos aspectos estrechamente relacionados:. Rendimiento de las consultas y el almacenamiento de datos

Yo sé que el enfoque general es utilizar mapa reducir para distribuir cada consulta sobre un grupo (por ejemplo, utilizando Hadoop). Sin embargo, ¿cuál es el formato de almacenamiento más eficiente de usar? Se trata de los datos de registro, por lo que puede asumir cada evento tiene una marca de tiempo, y que, en general, los datos están estructurados y no escasa. La mayoría de las consultas de análisis web implican el análisis de rebanadas de datos entre dos marcas de tiempo arbitrarios y recuperación de estadísticas agregadas o anomalías en los datos.

¿Un DB orientada a columnas como mesa grande (o HBase) ser una forma eficiente de almacenar, y lo más importante, consultar dichos datos? El hecho de que usted está seleccionando un subconjunto de filas (basado en fecha y hora) trabajar en contra de la premisa básica de este tipo de almacenamiento? ¿Sería mejor para almacenarlo como datos no estructurados, por ejemplo. un índice inverso?

Solución

Desafortunadamente, no hay una talla única respuesta.

Actualmente estoy usando en cascada, Hadoop, S3 y Aster Data para procesar de 100 conciertos al día a través de una tubería por etapas dentro de AWS.

Aster de datos se utiliza para las consultas y presentación de informes, ya que proporciona una interfaz SQL para los conjuntos de datos masivos lavados y analizados por los procesos de conexión en cascada en Hadoop. El uso de las interfaces de conexión en cascada JDBC, carga Aster Data es un proceso bastante trivial.

Tenga en herramientas de la mente como HBase y Hypertable son clave almacena / valor, por lo que no hacen las consultas ad hoc y se une sin la ayuda de un MapReduce / cascada aplicación para realizar las uniones fuera de banda, que es una muy útil patrón.

en la revelación completa, soy un desarrollador en el proyecto de conexión en cascada.

http://www.asterdata.com/

http://www.cascading.org/

Otros consejos

El libro Hadoop: La guía definitiva por O'Reilly tiene un capítulo que trata sobre cómo se utiliza Hadoop en dos empresas del mundo real

http://my.safaribooksonline.com/9780596521974/ch14

Tener una mirada en el papel Interpretación de los datos: análisis paralelo con Sawzall google. Se trata de un documento sobre la herramienta Google utiliza para el análisis de registro.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow