我需要从不同类型的日志文件中收集和存储大量数据,但是在必要之前,必须过滤某些字段以仅提取必要的信息。因此,我正在考虑使用ETL工具为我提供污垢服务的可能性。我的想法是基于文件连接器,编程或自定义转换过程,并最终将该解决方案部署在Linux计算机中,以便即时观察文件,提取所需信息并将其存储在数据库中。

所以我的问题是。哪种开源工具更合适,灵活和更多的吻?

素描,水壶,才华还是其他?

同样,将在那里使用日志/文本文件作为事实上的工具?

男子气概的意图和目标是创建一个有效的解决方案,以观察,提取日志和存储数据形式区域的日志格式。

谢谢!

有帮助吗?

解决方案

我认为最好的组合是:诸如Apache Hadoop或Gridgain或JPPF(用于处理大数据集)之类的MAP-REDUCE实现 + JDMP 用于查询和检索的数据挖掘 + NOSQL DB(Neo4J或Bigtable等)。目前尚不清楚什么是确切的用例;-)

还查看此链接以获取更多详细信息: 您知道Hadoop(ZOHMG替代方案)的批处理日志处理工具吗?

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top