Какой правильный инструмент ETL для использования для сбор пользовательских данных из информации журнала
-
08-10-2019 - |
Вопрос
Мне нужно собирать и хранить большие количественные данные из разных видов файлов журнала, но перед необходимым фильтр определенные поля для извлечения только необходимой информации. Так что я думаю о возможности использовать ETL-инструмент, чтобы сделать для меня грунтовую службу. Моя идея создает решение на основе разъема файлов, программирования или настроить процессы преобразования и, наконец, развертывают это решение в машинах Linux для умения просмотра файла на лету, например, необходимую информацию и хранить в базе данных.
Итак, мой вопрос. Какой инструмент с открытым исходным кодом является более подходящим, гибким и более поцелуем для этой работы?
Scriptella, чайник, талант или другой?
Опять же, для работы с журналами / текстовыми файлами там в качестве инструмента де-факто?
Мужливое намерение и цель создают эффективное решение для просмотра, экстрагировать журналы и хранить форматы данных формы региона.
Спасибо!
Решение
Что я считаю, что это лучшая комбинация: Apache Hadoop или Gridgain или JPPF. jdmp. Для добычи данных + NoSQL DB для запроса и поиска (Neo4j или Bigtable etc). По-прежнему не понятно о том, что такое точное использование случая ;-)
Также посмотрите эту ссылку для более подробной информации: Знаете ли вы инструменты обработки пакетных журналов для Hadoop (альтернативы ZOHMG)?