Реализация крупномасштабной аналитики файлов журнала

https://stackoverflow.com/questions/794885

18-09-2019
|

Вопрос

Может ли кто-нибудь указать мне на ссылку или дать обзор высокого уровня того, как такие компании, как Facebook, Yahoo, Google и т. Д.

В частности, сосредоточив внимание на веб-аналитике, меня интересуют два тесно связанных аспекта: производительность запроса и хранение данных.

Я знаю, что общий подход состоит в том, чтобы использовать карту, чтобы распределить каждый запрос по кластеру (например, с использованием Hadoop). Тем не менее, какой наиболее эффективный формат хранения для использования? Это данные журнала, поэтому мы можем предположить, что у каждого события есть марка времени, и что в целом данные структурированы, а не скудны. Большинство запросов веб -аналитики включают анализ срезов данных между двумя произвольными временными метками и получение совокупных статистических данных или аномалий в этих данных.

Будет ли ориентированный на столбцы DB, такая как большая таблица (или HBASE), будет эффективным способом хранения, и, что более важно, запросить такие данные? Работает ли тот факт, что вы выбираете подмножество строк (на основе метки времени) против основной предпосылки такого типа хранилища? Было бы лучше хранить его как неструктурированные данные, например. Обратный индекс?

Решение

К сожалению, нет единого размера подходит для всех ответов.

В настоящее время я использую данные Cascading, Hadoop, S3 и Aster для обработки концертов 100 -х годов в день через поэтапный трубопровод внутри AWS.

Данные ASTER используются для запросов и отчетности, поскольку они предоставляют интерфейс SQL для массивных наборов данных, очищенных и анализируемых каскадными процессами на Hadoop. Используя каскадные интерфейсы JDBC, загрузка данных ASTER является довольно тривиальным процессом.

Имейте в виду, что инструменты, такие как Hbase и Hypertable, являются магазинами ключей/значения, поэтому не выполняйте специальные запросы и соединения без помощи приложения MapReduce/Cascading для выполнения соединения из полосы, что является очень полезным шаблоном.

В полном раскрытии я являюсь разработчиком в каскадном проекте.

http://www.asterdata.com/

http://www.cascading.org/

Другие советы

Книга Hadoop: у окончательного руководства O'Reilly есть глава, в которой обсуждается, как Hadoop используется в двух реальных компаниях.

http://my.safaribooksonline.com/9780596521974/ch14

Посмотрите на газету Интерпретация данных: параллельный анализ с Sawzall Google. Это документ о инструменте, который Google использует для анализа журналов.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow