Onde está a arquitetura do Pentaho Kettle?

https://stackoverflow.com/questions/1573859

21-09-2019
|

Pergunta

Onde posso encontrar a arquitetura Pentaho Kettle?Estou procurando um pequeno wiki, um documento de design, uma postagem no blog ou qualquer coisa que forneça uma boa visão geral de como as coisas funcionam.Esta questão não se destina a guias iniciais específicos de "como fazer", mas sim a uma boa visão da tecnologia e arquitetura.

Perguntas específicas que tenho são:

Como os dados fluem entre as etapas?Parece que tudo está na memória - estou certo sobre isso?
O que foi dito acima também é verdade sobre diferentes transformações?
Como está o Coletar etapas implementadas?
Alguma orientação específica de desempenho para usá-lo?
A tarefa FTP é confiável e tem bom desempenho?
Algum outro "faça e não faça"?

Solução

Ver Este pdf.

Outras dicas

Como os dados fluem entre as etapas?Parece que está tudo dentro - Estou certo sobre isso?

O fluxo de dados é baseado em linhas.Para transformação, cada etapa produz uma 'tupla' ou uma linha com campos.Cada campo é um par de dados e metadados.Cada etapa tem entrada e saída.Step pega linhas da entrada, modifica linhas e envia linhas para saídas.Na maioria dos casos, todas as informações estão na memória.Mas.Steps lê dados em streaming (como jdbc ou outro) - normalmente na memória apenas uma parte dos dados de um stream.

O que foi dito acima também é verdade sobre diferentes transformações?

Existe um conceito de “trabalho” e um conceito de “transformação”.Tudo o que foi escrito acima é principalmente verdadeiro para a transformação.Principalmente - significa que a transformação pode conter etapas muito diferentes, algumas delas - como etapas de coleta - podem tentar coletar todos os dados de um fluxo.Jobs - é uma forma de realizar algumas ações que não seguem o conceito de 'streaming' - como enviar e-mail em caso de sucesso, carregar alguns arquivos da rede, executar diferentes transformações uma por uma.

Como as etapas de coleta são implementadas?

Depende apenas de uma etapa específica.Normalmente, como dito acima - as etapas de coleta podem tentar coletar todos os dados do fluxo - sendo assim - pode ser um motivo de exceções OutOfMemory.Se os dados forem muito grandes - considere substituir as etapas de “coleta” por uma abordagem diferente para processar dados (por exemplo, use etapas que não coletam todos os dados).

Alguma orientação específica de desempenho para usá-lo?

Um monte de.Depende das etapas de transformação em que consiste, das fontes de dados utilizadas.Eu tentaria falar sobre o cenário exato e não sobre diretrizes gerais.

A tarefa FTP é confiável e tem bom desempenho?

Pelo que me lembro, o ftp é apoiado pela implementação do EdtFTP, e pode haver alguns problemas com essas etapas, como - alguns parâmetros não salvos ou proxy http-ftp não funcionando ou outros.Eu diria que o Kettle em geral é confiável e de alto desempenho - mas para alguns cenários não comumente usados - pode não ser assim.

Algum outro "faça e não faça"?

Eu diria que o que fazer é entender uma ferramenta antes de começar a usá-la intensamente.Conforme mencionado nesta discussão - há alguma literatura sobre integração de dados Kettle/Pentaho que você pode tentar pesquisar em sites específicos.

Uma das vantagens do Pentaho Data Integration/Kettle é a comunidade relativamente grande onde você pode solicitar aspectos específicos.

http://forums.pentaho.com/

https://help.pentaho.com/Documentação

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow