Was das richtige ETL-Tool für collect benutzerdefinierte Daten aus dem Log-Informationen zu verwenden,

https://stackoverflow.com/questions/4150965

08-10-2019
|

Frage

Ich brauche ein große Menge Daten zu sammeln und zu speichern, aus verschiedenen Arten von Log-Dateien, aber vor notwendig Filter bestimmte Felder für Extrakt nur die notwendigen Informationen. Also ich bin über die Möglichkeit denken, ein ETL-Tool zu verwenden, um den Schmutz Service für mich zu tun. Meine Idee ist es, eine Lösung zu erstellen, basierend auf Datei-Anschluss, Programmierung oder die Transformationsprozesse anpassen und schließlich diese Lösung in Linux-Maschinen einsetzen für die Möglichkeit zu beobachten Datei on the fly, extrahieren Sie die benötigten Informationen und speichern diese in der Datenbank, zum Beispiel.

So ist meine Frage. Was Open-Source-Tool ist besser geeignet, flexibler und KISS für diesen Job?

Scriptella, Wasserkocher, Talent oder andere?

Auch für die Arbeit mit log / Textdateien dort als De-facto-Tool?

Die männliche Absicht und Ziel ist es schaffen eine effiziente Lösung zu beobachten, zu extrahieren Protokolle und Daten speichern Form Bezirke Protokolle Formate.

Thx!

Lösung

Was ich glaube, die beste Kombination zu sein: map-reduce Implementierung wie Apache Hadoop oder Gridgain oder JPPF (für die Verarbeitung großer Datenmengen) + jdmp für Data Mining + NoSQL db für die Suche und den Abruf (Neo4j oder BigTable usw.). Es ist noch nicht klar, was ist der genaue Anwendungsfall; -)

Schauen Sie auch auf diesen Link für weitere Informationen: Haben Sie Batch-Protokollverarbeitung Werkzeuge für hadoop (zohmg Alternativen)?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow