Domanda

Alla ricerca di un'applicazione open source non basata su cloud per fare la trasformazione dei dati; anche se per un killer (e io assassino media) app appena costruito per trasformazioni di dati, potrei essere disposto a spendere fino a $ 1000.

Ho guardato Perl , Kapow Katalyst , Pentaho Kettle , e altro ancora.

Perl, Python, Ruby , che sono chiaramente le lingue, ma incapace di trovare nessuna quadri / DSL solo per l'elaborazione dei dati; nel senso che non sono davvero una grande ambienti di sviluppo, il che significa non c'è costruito GUI per la costruzione di RegEx, Input / Output (CSV, XML, JDBC, REST, ecc), non debugger per testare file e file di dati - sono non male, non solo quello che sto cercando, che è una GUI costruita per le trasformazioni di dati complessi; Detto questo, mi piacerebbe se il file GUI / app era in un linguaggio di scripting, e non solo memorizzato in qualche file ASCII non leggibile XML /.

Kapow Katalyst è fatto per l'accesso ai dati tramite HTTP (HTML, CSS, RSS, JavaScript, ecc) che ha un bella interfaccia grafica per trasformare il testo non strutturato, ma questo è non il suo valore fondamentale offerta, e è modo troppo costoso. Si fa un lavoro va bene di attraversare sentieri documento dello spazio dei nomi; indovinando è solo XPath sul back-end, dal momento che la sintassi sembra essere lo stesso.

Pentaho Kettle ha una bella interfaccia grafica per ingresso / uscita maggior parte dei negozi di dati comuni, e il suo proprio prendere sul trattamento dei dati di elaborazione; che è a posto, e solo ha una piccola curva di apprendimento. debugger di Kettle è ok, in quanto i dati è facile da vedere, ma gli errori e le eccezioni non sono filettati con l'uscita, e non c'è alcun modo per eseguire il debug di un problema davvero; il che significa non può ricaricare l'output / error / eccezioni, ma sono in grado di visualizzare il feedback del sistema. Tutto ciò che ha detto, bollitore trasformazione dei dati è _______ bene, diciamo solo che mi ha fatto sentire come se devo essere perso qualcosa, perché mi è stato completamente perplesso "se non è possibile, basta scrivere la trasformazione in JavaScript"; umm, che cosa?

Quindi, qualche suggerimento? Si rendono conto che non ho davvero spec qualsiasi trasformazioni , ma figura se davvero utilizza un prodotto per munging dati, mi piacerebbe sapere su di esso; anche EXCEL, immagino.

In però generale, attualmente sto cercando un prodotto che è in grado di gestire 1000-100,000 righe con 10-100 colonne. Sarebbe super cool se potesse profilo insiemi di dati, che è una caratteristica bollitore sorta di fa, ma non super bene. Mi piacerebbe anche come costruito nel test di unità, il che significa che sono in grado di costruire la serie di controllo di dati, ed eseguire le modifiche apportate rispetto al set di controlli. Poi vorrei poter filtrare selettivamente le righe e le colonne Costruendo la trasformazione senza alterare la configurazione; per esempio, esegue un insieme di dati attraverso la trasformazione, filtrare i risultati e la successiva esecuzione tali gruppi vengono bloccati automaticamente alla prima occorrenza "logico"; che a sua volta significherebbe meno dati a "cerca" e un tempo di esecuzione ridotti per ogni iterazione migliorata; quello che sarebbe stato bello se folle è come avevo filtrando le righe / colonne l'applicazione sta monitorando quelli, (e l'uscita è stato filtrato). e unità testato / evidenziato alcuna modifica. Se ho fatto un cambiamento che effettuerebbe la registri delle applicazioni e la sua capacità di monitorare i test di unità basate su di me "rompere un ramo" - mi avrebbe dato un avvertimento, mi permetta di scaricare i dati memorizzati ramo ... e / o pista le chiavi primarie per differenza di prossima generazione di uscita, o addirittura tentano di replicare utilizzando la logica fuzzy. E sì, so che questo è un sogno irrealizzabile, ma hey, pensato chiederei, nel caso in cui ci sia qualcosa là fuori che ho appenamai visto.

Sentitevi liberi di commentare, sarei felice di rispondere alle domande, o offrire informazioni aggiuntive.

È stato utile?

Soluzione

Altri suggerimenti

Talend avrà bisogno di più di 5 minuti del vostro tempo, forse più vicino a circa 1 ora di cominciare a cablare un trasformazioni di base ed essere in grado di soddisfare la vostra esigenza di tenere le trasformazioni di controllo di versione come bene. È descritto un processo tubazioni che può essere fatto facilmente in Talend quando si sa come, dove si hanno ingressi e uscite multiple in un progetto come stessi dati grezzi passa attraverso varie trasformazioni e filtrazione, fino a giungere in uscita finale come si desidera. Quindi è possibile pianificare i lavori per ripetere il processo su dati simili. Tornare e trascorrere più tempo con Talend, e si riuscirà a quello che ti serve, ne sono sicuro.

Ho anche capita di essere uno dei committer di Google Refine e anche utilizzare Talend nel mio lavoro quotidiano. Io in realtà a volte a modello le mie trasformazioni per Talend prima in Google Refine. (A volte anche utilizzando Perfeziona per eseguire la pulitura sulle trasformazioni ETL borked stessi! LOL) vi posso dire che la mia esperienza con Talend ha svolto una piccola parte in alcune delle caratteristiche di Google Refine. Per esempio, sia Talend e Google Refine hanno il concetto di un editor di espressioni per le trasformazioni (Talend scende al linguaggio Java per questo, se necessario).

Google Refine non sarà mai uno strumento di ETL, nel senso che non abbiamo studiato a competere in quello spazio fosse ETL è in genere utilizzato per i grandi data warehouse di elaborazione back-end e trasformazioni. Tuttavia, abbiamo progettato Google Refine per complimentarmi esistenti strumenti di ETL come Talend, consentendo l'anteprima facile dal vivo per prendere decisioni informate circa le vostre trasformazioni e la pulizia, e se i dati non è incredibilmente enorme, allora si potrebbe optare per eseguire ciò che è necessario all'interno Perfeziona la stessa .

Non sono sicuro esattamente che tipo di dati o esattamente che tipo di trasformazioni che si sta cercando di fare, ma se è in primo luogo la trasformazione matematica, forse si può provare FreeMat , ottava , o SciLab . Se è più-warehouse-style dati munging, provare aperte strumenti ETL source come Clover , Talend , JasperETL Comunità Edition, o Jitterbit .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top