Dove è l'architettura di Pentaho Kettle?

https://stackoverflow.com/questions/1573859

21-09-2019
|

Domanda

Dove posso trovare l'architettura Pentaho Kettle? Sto cercando una breve wiki, documento di progettazione, post di blog, qualsiasi cosa per dare una buona panoramica su come funzionano le cose. Questa domanda non è pensata per specifiche "come" a partire guide ma piuttosto una buona vista in tecnologia e Architettura .

Domande specifiche che ho sono:

Come funziona il flusso di dati tra i passaggi? Sembrerebbe tutto è in memoria -? Ho ragione su questo
È possibile che questo vero su diverse trasformazioni così?
Come sono le Raccogliere fasi attuate?
Le eventuali linee guida Prestazioni specifiche per usarlo?
è il compito ftp affidabile e performante?
Ogni altro "Dos e cosa non fare"?

Soluzione

questo PDF .

Altri suggerimenti

Come funziona il flusso di dati tra i passaggi? Sembrerebbe tutto è in   memoria -? ho ragione su questo

Il flusso di dati è basata su file. Per ogni passo trasformazione produrre un 'tupla' o una riga con campi. Ogni campo è paio di dati e metadati. Ogni passo ha ingresso e uscita. Passaggio richiede righe da ingresso, modificare righe e inviare righe alle uscite. Per la maggior parte dei casi ogni tutte le informazioni sono in memoria. Ma. Passi legge i dati in modo di streaming (come JDBC o altro) - così tipicamente in memoria solo una parte dei dati da un flusso.

È possibile che questo vero su diverse trasformazioni così?

C'è un concetto 'lavoro' e il concetto 'trasformazione'. Tutto scritto sopra è vero soprattutto per la trasformazione. Per lo più - significa trasformazione può contenere molto diverse fasi, alcune delle quali - come raccogliere punti - può cercare di raccogliere tutti i dati da un flusso. Lavoro - è un modo per eseguire alcune azioni che non seguono 'streaming' concept - come inviare e-mail in caso di successo, caricare alcuni file dalla rete, eseguire diverse trasformazioni uno per uno.

Come sono implementate le misure raccolte?

E dipende solo fase particolare. In genere, come detto sopra - raccogliere passaggi possono cercare di raccogliere tutti i dati dal flusso - avendo così - può essere un motivo di eccezioni OutOfMemory. Se i dati è troppo grande - considerare sostituire i passaggi 'raccolta' con diverso approccio per elaborare i dati (ad esempio, passi d'uso che non raccolgono tutti i dati).

Le eventuali linee guida Prestazioni specifiche per usarlo?

Un sacco di. Dipende gradini trasformazione è costituita, fonti di dati utilizzati. Vorrei provare a parlare a scenario esatto piuttosto che le linee guida generali.

è il compito ftp affidabile e performante?

Per quanto mi ricordo ftp è sostenuta da implementazione EdtFTP, e ci possono essere alcuni problemi con quella passi simili - alcuni parametri non salvati, o proxy HTTP-FTP non funzionante o altro. Direi bollitore, in generale, è affidabile e Compriamo - ma per alcuni scenari non comunemente utilizzati -. Si può non essere così

Ogni altro "Dos e cosa non fare"?

Direi che il Do - è quello di capire uno strumento Prima di utilizzare l'intensamente. Come accennato in questa discussione -. C'è un paio di letteratura sulla Data Integration bollitore / Pentaho si può provare ricerca su siti specifici

Uno dei vantaggi di Pentaho Data Integration / bollitore è relativamente grande comunità si può chiedere di aspetti specifici.

http://forums.pentaho.com/

https://help.pentaho.com/Documentation

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow