Какой правильный инструмент ETL для использования для сбор пользовательских данных из информации журнала

https://stackoverflow.com/questions/4150965

08-10-2019
|

Вопрос

Мне нужно собирать и хранить большие количественные данные из разных видов файлов журнала, но перед необходимым фильтр определенные поля для извлечения только необходимой информации. Так что я думаю о возможности использовать ETL-инструмент, чтобы сделать для меня грунтовую службу. Моя идея создает решение на основе разъема файлов, программирования или настроить процессы преобразования и, наконец, развертывают это решение в машинах Linux для умения просмотра файла на лету, например, необходимую информацию и хранить в базе данных.

Итак, мой вопрос. Какой инструмент с открытым исходным кодом является более подходящим, гибким и более поцелуем для этой работы?

Scriptella, чайник, талант или другой?

Опять же, для работы с журналами / текстовыми файлами там в качестве инструмента де-факто?

Мужливое намерение и цель создают эффективное решение для просмотра, экстрагировать журналы и хранить форматы данных формы региона.

Спасибо!

Решение

Что я считаю, что это лучшая комбинация: Apache Hadoop или Gridgain или JPPF. jdmp. Для добычи данных + NoSQL DB для запроса и поиска (Neo4j или Bigtable etc). По-прежнему не понятно о том, что такое точное использование случая ;-)

Также посмотрите эту ссылку для более подробной информации: Знаете ли вы инструменты обработки пакетных журналов для Hadoop (альтернативы ZOHMG)?

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow