从日志信息中收集自定义数据的正确的ETL工具
-
08-10-2019 - |
题
我需要从不同类型的日志文件中收集和存储大量数据,但是在必要之前,必须过滤某些字段以仅提取必要的信息。因此,我正在考虑使用ETL工具为我提供污垢服务的可能性。我的想法是基于文件连接器,编程或自定义转换过程,并最终将该解决方案部署在Linux计算机中,以便即时观察文件,提取所需信息并将其存储在数据库中。
所以我的问题是。哪种开源工具更合适,灵活和更多的吻?
素描,水壶,才华还是其他?
同样,将在那里使用日志/文本文件作为事实上的工具?
男子气概的意图和目标是创建一个有效的解决方案,以观察,提取日志和存储数据形式区域的日志格式。
谢谢!
解决方案
我认为最好的组合是:诸如Apache Hadoop或Gridgain或JPPF(用于处理大数据集)之类的MAP-REDUCE实现 + JDMP 用于查询和检索的数据挖掘 + NOSQL DB(Neo4J或Bigtable等)。目前尚不清楚什么是确切的用例;-)
还查看此链接以获取更多详细信息: 您知道Hadoop(ZOHMG替代方案)的批处理日志处理工具吗?
不隶属于 StackOverflow