Question

Où puis-je trouver l'architecture Pentaho Kettle? Je suis à la recherche d'un wiki court, document de conception, de blog, quoi que ce soit pour donner une bonne vue d'ensemble sur la façon dont les choses fonctionnent. Cette question ne vise pas pourspecific « comment » à partir de guides, mais plutôt une bonne vue sur la technologie et Architecture .

Des questions spécifiques que j'ai sont:

  1. Comment flux de données entre les étapes? Il semblerait que tout est en mémoire - Ai-je raison de cette
  2. Le VÉRACITÉ sur les différentes transformations aussi bien?
  3. Comment sont les Collectez les étapes mises en œuvre?
  4. Les lignes directrices de performence spécifiques à l'utiliser?
  5. La tâche est-ftp fiable et performant?
  6. Tout autre "Dos and Don'ts"?
Était-ce utile?

La solution

Autres conseils

  
      
  1. Comment flux de données entre les étapes? Il semblerait que tout est en   mémoire - Ai-je raison de cette
  2.   

Le flux de données est basée sur les lignes. Pour la transformation, chaque étape de produire un « tuple » ou une rangée avec les champs. Chaque champ est paire de données et des métadonnées. Chaque étape a entrée et de sortie. Étape prend des lignes d'entrée, modifier les lignes et envoyer des lignes aux sorties. Pour la plupart des cas toutes les informations en mémoire. Mais. Étapes lit les données à la mode de diffusion en continu (comme jdbc ou autre) - si typiquement en mémoire une partie seulement des données à partir d'un cours d'eau.

  
      
  1. Le VÉRACITÉ sur les différentes transformations aussi bien?
  2.   

Il y a un concept de 'travail' et le concept de 'transformation'. Tous écrit ci-dessus est surtout vrai pour la transformation. La plupart du temps - des moyens de transformation peut contenir des étapes très différentes, certains d'entre eux - comme la collecte des étapes - peuvent essayer de collecter toutes les données à partir d'un flux. Offres d'emploi - est un moyen d'effectuer certaines actions qui ne suivent pas « streaming » concept - envoyer comme le courrier électronique en cas de succès, la charge des fichiers du filet, exécutent différentes transformations, un par un.

  
      
  1. Comment sont les étapes Collectionnez mis en œuvre?
  2.   

Il ne dépend pas particulièrement. En règle générale comme dit plus haut - recueillir les étapes peuvent essayer de collecter toutes les données de flux - ayant donc - peut être une raison d'exceptions OutOfMemory. Si des données est trop grand - envisager de remplacer les étapes « Collect » avec approche différente pour traiter les données (par exemple les étapes d'utilisation qui ne recueillent pas toutes les données).

  
      
  1. Les lignes directrices de performence spécifiques à l'utiliser?
  2.   

Beaucoup de. Cela dépend des étapes de transformation est constitué, les sources de données utilisées. Je voudrais essayer de parler au scénario exact plutôt que des directives générales.

  
      
  1. La tâche est-ftp fiable et performant?
  2.   

Pour autant que je me souviens ftp est soutenu par la mise en œuvre EdtFTP, et il peut y avoir quelques problèmes avec les étapes que comme - certains paramètres non enregistrés, ou http-ftp proxy ne fonctionne pas ou autre. Je dirais Kettle en général est fiable et perfomant - mais pour certains scénarios utilisés généralement pas. - il peut être pas

  
      
  1. Tout autre "Dos and Don'ts"?
  2.   

Je dirais que le Do - est de comprendre un outil avant de commencer un usage intensif. Comme il est mentionné dans cette discussion -. Il y a deux ou trois de la littérature sur Kettle / Pentaho Data Integration vous pouvez rechercher sur des sites spécifiques

L'un des avantages de l'intégration Pentaho / Kettle données est relativement grande communauté vous pouvez demander des aspects spécifiques.

http://forums.pentaho.com/

https://help.pentaho.com/Documentation

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top