从日志信息中收集自定义数据的正确的ETL工具

https://stackoverflow.com/questions/4150965

08-10-2019
|

题

我需要从不同类型的日志文件中收集和存储大量数据，但是在必要之前，必须过滤某些字段以仅提取必要的信息。因此，我正在考虑使用ETL工具为我提供污垢服务的可能性。我的想法是基于文件连接器，编程或自定义转换过程，并最终将该解决方案部署在Linux计算机中，以便即时观察文件，提取所需信息并将其存储在数据库中。

所以我的问题是。哪种开源工具更合适，灵活和更多的吻？

素描，水壶，才华还是其他？

同样，将在那里使用日志/文本文件作为事实上的工具？

男子气概的意图和目标是创建一个有效的解决方案，以观察，提取日志和存储数据形式区域的日志格式。

谢谢！

解决方案

我认为最好的组合是：诸如Apache Hadoop或Gridgain或JPPF（用于处理大数据集）之类的MAP-REDUCE实现 + JDMP 用于查询和检索的数据挖掘 + NOSQL DB（Neo4J或Bigtable等）。目前尚不清楚什么是确切的用例;-)

还查看此链接以获取更多详细信息：您知道Hadoop（ZOHMG替代方案）的批处理日志处理工具吗？

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow