Pregunta

¿Dónde puedo encontrar la arquitectura de Pentaho Kettle? Busco un corto wiki, documento de diseño, entrada de blog, cualquier cosa para dar una buena visión general de cómo funcionan las cosas. Esta pregunta no es para la específica "cómo" guías de partida, sino más bien una visión bueno en la tecnología y arquitectura .

Las preguntas específicas que tengo son:

  1. ¿Cómo fluye de datos entre los pasos? Al parecer, todo está en la memoria -? Estoy en lo correcto acerca de este
  2. ¿Es cierto lo anterior acerca de las diferentes transformaciones así?
  3. ¿Cómo son los Reunir Pasos implementarse?
  4. Cualquier directrices específicas performence a usarlo?
  5. ¿Es la tarea FTP fiable y performant?
  6. Cualquier otro "Dos y no hacer"?
¿Fue útil?

Solución

Otros consejos

  
      
  1. ¿Cómo fluye de datos entre los pasos? Al parecer, todo está en   memoria -? Estoy en lo correcto acerca de este
  2.   

El flujo de datos se basa en la fila. Para la transformación de cada paso producir un 'tupla' o una fila de campos. Cada campo es par de datos y metadatos. Cada paso tiene entrada y salida. Paso lleva filas de la entrada, modificar filas y filas enviar a las salidas. Para la mayoría de los casos cada toda la información está en la memoria. Pero. Pasos lee los datos en la transmisión de la moda (como JDBC u otro) - por lo general en la memoria sólo una parte de los datos de una corriente.

  
      
  1. ¿Es cierto lo anterior acerca de las diferentes transformaciones así?
  2.   

Hay un concepto 'trabajo' y el concepto de 'transformación'. Todo lo escrito arriba es sobre todo cierto para la transformación. Sobre todo - la transformación puede contener medios muy diferentes pasos, algunos de ellos - como los pasos a cobro revertido - puede tratar de recoger todos los datos de una corriente. Puestos de trabajo - es una manera de realizar algunas acciones que no siguen 'streaming' concepto - como el correo electrónico de envío en caso de éxito, la carga de algunos archivos de red, ejecutan diferentes transformaciones de uno en uno.

  
      
  1. ¿Cómo se implementan las medidas recopila?
  2.   

Sólo en particular depende de paso. Normalmente Como se dijo anteriormente - pasos recogemos puede tratar de recoger todos los datos de la corriente - por lo que tiene - puede ser una razón de excepciones OutOfMemory. Si los datos es demasiado grande - considere reemplazar a 'recoger' pasos con enfoque diferente a los datos de proceso (por ejemplo, medidas de uso que no recogen todos los datos).

  
      
  1. Cualquier directrices específicas performence a usarlo?
  2.   

Mucha. Depende de pasos de transformación se compone, las fuentes de datos utilizados. Me gustaría tratar de hablar en escenario exacto en lugar de directrices generales.

  
      
  1. ¿Es la tarea FTP fiable y performant?
  2.   

Por lo que yo recuerdo ftp está respaldado por la aplicación EdtFTP, y puede haber algunos problemas con que los pasos como - algunos parámetros no guardados o proxy HTTP-ftp no de trabajo u otro. Yo diría que, en general, la caldera es fiable y perfomant - pero para algunos escenarios de uso común no -. Puede ser no tan

  
      
  1. Cualquier otro "Dos y no hacer"?
  2.   

Yo diría que el Do - es entender una herramienta antes de comenzar su uso de forma intensiva. Como se ha mencionado en esta discusión -. Hay un par de literatura sobre el Kettle / Pentaho Data Integration puede intentar buscarlo en sitios específicos

Una de las ventajas de Pentaho Data Integration / Caldera es relativamente gran comunidad puede solicitar aspectos específicos.

http://forums.pentaho.com/

https://help.pentaho.com/Documentation

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top