Wo ist Pentaho Kettle Architektur?

https://stackoverflow.com/questions/1573859

21-09-2019
|

Frage

Wo kann ich Pentaho Kettle Architektur finden? Ich suche nach einem kurzen Wiki, Design-Dokument, Blog-Post, alles einem guten Überblick zu geben, wie die Dinge funktionieren. Diese Frage ist für bestimmte „wie“ Start-Führer, sondern eine gute Sicht auf der Technologie und Architektur .

nicht gemeint

Spezifische Fragen, die ich habe, sind:

Wie fließen Daten zwischen den Schritten? Es scheint, alles ist in Erinnerung - bin ich recht über dieses
Ist die oben wahr über verschiedene Transformationen als auch?
Wie sind die Collect implementierten Schritte?
Alle spezifischen performence Richtlinien, um es mit?
Ist die ftp Aufgabe zuverlässig und performant?
Jede andere "Dos and Don'ts"?

Lösung

Siehe diese PDF .

Andere Tipps

Wie fließen Daten zwischen den Schritten? Es scheint, alles ist in   Speicher - bin ich recht über dieses

Der Datenfluss ist zeilenbasierte. Zur Transformation erzeugt bei jedem Schritt ein ‚Tupel‘ oder eine Zeile mit Feldern. Jedes Feld ist Paar von Daten und Metadaten. Jeder Schritt hat Eingang und Ausgang. Schritt nimmt Reihen von Eingang, Zeilen und Zeilen modifizieren Ausgängen senden. In den meisten Fällen alle alle Informationen im Speicher. Aber. Schritte lesen Daten in der Mode-Streaming (wie Jdbc oder anderen) - so typischerweise im Speicher nur ein Teil der Daten aus einem Datenstrom.

Ist die oben wahr über verschiedene Transformationen als auch?

Es gibt einen ‚Job‘ -Konzept und ‚Transformation‘ -Konzept. Alle oben geschrieben ist für die Transformation meist wahr. Meist - Mittel Transformation kann sehr unterschiedliche Schritte enthalten, von denen einige - wie collect Schritte - versuchen können alle Daten aus einem Stream zu sammeln. Jobs - ist ein Weg, um bestimmte Aktionen auszuführen, die ‚Streaming‘ Konzept nicht folgen - wie E-Mail senden an Erfolg, einige Dateien aus Netz laden, verschiedene Transformationen nacheinander auszuführen.

Wie werden die Collect Schritte umgesetzt?

Es hängt nur von bestimmten Schritt. Typischerweise wie oben gesagt - collect Schritte versuchen können alle Daten aus dem Strom zu sammeln - mit so - kann ein Grund von OutOfMemory Ausnahmen. Wenn die Daten zu groß ist - zu prüfen, ersetzen ‚sammeln‘ Schritte mit anderen Ansatz zur Prozessdaten (zB Verwendung Schritte, die nicht sammeln alle Daten tun).

Alle spezifischen performence Richtlinien, um es mit?

Eine Menge. Hängt von Schritten Transformation wird, die Quellen von Daten verwendet wird, besteht. Ich würde versuchen, auf genaues Szenario sprechen dann eher allgemeine Richtlinien.

Ist die ftp Aufgabe zuverlässig und performant?

Soweit ich ftp erinnern durch EdtFTP Implementierung unterstützt wird, und es kann einige Probleme mit, dass die Schritte sein wie - einige Parameter nicht gespeichert, oder http-ftp-Proxy funktioniert nicht oder anderen. Ich würde sagen, Kessel im Allgemeinen zuverlässig und und leistungsstark - aber für manche nicht häufig verwendete Szenarien -. Es kann nicht so sein

Jede andere "Dos and Don'ts"?

Ich würde das Do sagt - ist ein Werkzeug zu verstehen, vor der Verwendung intensiv beginnen. Wie in dieser Diskussion erwähnt -. Gibt es ein paar Literatur auf Kettle / Pentaho Data Integration Sie suchen für sie auf bestimmten Websites versuchen

Eine der Vorteile von Pentaho Data Integration / Kettle ist relativ große Community, die Sie für bestimmte Aspekte fragen.

http://forums.pentaho.com/

https://help.pentaho.com/Documentation

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow