Pregunta

Tengo un montón de archivos zip de CSV, de los que quiero crear una tabla de colmena. Estoy tratando de averiguar cuál es la mejor manera de hacerlo.

  • Descomprima los archivos, cárguelos a HDFS.
  • ¿Hay alguna forma de copiar los archivos a HDFS, descifrar el
  • ¿O hay alguna otra forma mejor / recomendada?
¿Fue útil?

Solución

Es una práctica común convertir archivos CSV en pestañas separadas o CTRL A, o CTRL B delimitada y luego cargarlo en Hadoop/Hive.

Para cargar archivos en HDFS puede usar el siguiente comando -

Hadoop fs -put file_to_upplload hdfs_path

Supongo que le gustaría automatizar esto. En ese caso, las siguientes instrucciones serán útiles.

  1. Cree la tabla de colmena con columnas mapeo en archivos CSV archivados (puede eliminar campos innecesarios en este paso). Elija su delimitador en la declaración de tabla de creación de Hive.

  2. Convierta los archivos CSV en formato delimitado (CTRL A o CTRL B)

  3. Cargue archivos en la ubicación de la tabla de colmena.

Puede automatizar sobre pasos utilizando scripts/marco de procesamiento de lotes de Python.

Para leer más:http://wiki.apache.org/hadoop/hive/getteted

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top