Che lo strumento di ETL diritto di utilizzare per i dati personalizzati raccogliere dalle informazioni di registro

https://stackoverflow.com/questions/4150965

08-10-2019
|

Domanda

Ho bisogno di raccogliere e memorizzare una grande quantità di dati da diversi tipi di file di log, ma prima è necessario Filtro alcuni campi per estrarre solo le informazioni necessarie. Così sto pensando alla possibilità di utilizzare uno strumento di ETL per fare il servizio sporco per me. La mia idea è costruire una soluzione basata sul connettore di file, la programmazione o personalizzare i processi di trasformazione e, infine, implementare questa soluzione in macchine Linux per file di osservazione in grado al volo, estrarre le informazioni necessarie e memorizzare questo nel database, per esempio.

Quindi la mia domanda è. Quale strumento open source è più adatto, flessibile e più BACIO per questo lavoro?

Scriptella, bollitore, talento o altro?

Anche in questo caso, per il lavoro con log / file di testo non come strumento de facto?

L'intenzione virile e è oggettiva creare una soluzione efficiente per guardare, i registri estrarre e formati di negozio distretti forma registra i dati.

Thx!

Soluzione

Quello che credo sia la migliore combinazione è: map-ridurre implementazione come Apache Hadoop o gridgain o JPPF (per l'elaborazione di grandi insiemi di dati) + jdmp per il Data mining + NoSQL db per la domanda e il recupero (o Neo4j bigtable ecc). Non è ancora chiaro su quello che è il caso esatto uso; -)

Vedi anche questo link per maggiori informazioni: sai strumenti di elaborazione in batch di registro per Hadoop (alternative zohmg)?

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow