No se puede conectar a HDF utilizando PDI STEP
-
21-12-2019 - |
Pregunta
He configurado con éxito hadoop 2.4 en una Ubuntu 14.04 VM de un sistema Windows 8 . La instalación de Hadoop está trabajando absolutamente bien y también soy capaz de ver el Namenode desde mi navegador de Windows.Imagen adjunta a continuación:
Por lo tanto, mi nombre de host es: Puerto de Ubuntu y HDFS: 9000 (corríjame si estoy equivocado).
núcleo-sitio.xml:
<property>
<name>fs.defaultFS</name>
<value>hdfs://ubuntu:9000</value>
</property>
El problema es que se conecta a HDFS desde mi herramienta de integración de datos Pentaho.Imagen adjunta a continuación. PDI Versión: 4.4.0 Paso usado: archivos de copia hadoop
Por favor, ayúdame a conectarme a HDF utilizando PDI.¿Necesito instalar o actualizar cualquier tarro para esto?Por favor, hágamelo saber en caso de que necesite más información.
Solución
PDI 4.4 AFAIK no tiene soporte para Hadoop 2.4.En cualquier caso, hay una propiedad en un archivo que debe configurar para usar una configuración de Hadoop en particular (puede ver "Configuración de Hadoop" denominada "CHIM" en los foros, etc.).En la integración de datos / complementos / Pentaho-Big-Data-Data-Plugin / Plugin.Properties Archivo, hay una propiedad llamada Active.Hadoop.Configuration, se establece de forma predeterminada para "Hadoop-20" que se refiere a un Apache Hadoop 0.20.x distribución.Querrá configurarlo en la distro "más reciente" que viene con Pentaho, o construir su propia calza como se describe en mi blog Post:
http://funpdi.blogspot.COM / 2013/03 / Pentaho-Data-Integration-44-and-hadoop.html
Las próximas versiones (5.2+) de PDI apoyarán las distribuciones de proveedores que incluyen Hadoop 2.4+, así que mantén su atención en el mercado de PDI y en Pentaho.com :)