Qu'est-ce que le bon outil ETL à utiliser pour recueillir des données sur mesure à partir d'informations de journal

https://stackoverflow.com/questions/4150965

08-10-2019
|

Question

Je dois recueillir et stocker une grande quantité de données de de différents types de fichiers journaux, mais avant le filtre est nécessaire, certains champs pour extraire uniquement les informations nécessaires. Donc, je pense à la possibilité d'utiliser un outil ETL pour faire le service de terre pour moi. Mon idée est de construire une solution basée sur le connecteur de fichier, la programmation ou personnaliser les processus de transformation et enfin déployer cette solution dans les machines linux pour le fichier à surveiller en mesure à la volée, extraire les informations nécessaires et le stocker dans la base de données, par exemple.

Alors ma question est. Quel outil open source est plus appropriée, souple et plus BAISER pour ce travail?

Scriptella, Bouilloire, Talent ou autre?

Encore une fois, pour travailler avec des fichiers log / texte là comme un outil de facto?

L'intention virile et est objective créer une solution efficace pour regarder, les journaux d'extraction et les formats de magasin districts formulaire de données.

Thx!

La solution

Ce que je crois être la meilleure combinaison est: carte-réduire la mise en œuvre comme Hadoop ou GridGain ou JPPF (pour le traitement de grands ensembles de données) + jdmp pour les données minières + NoSQL db pour la requête et de recherche (Neo4j ou grossetable etc). Il est toujours pas clair sur ce qui est le cas précis d'utilisation; -)

Regardez aussi ce lien pour plus d'informations: connaissez-vous des outils de traitement des journaux de traitement par lots pour Hadoop (alternatives zohmg)

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow