Preprocesar e ingerir datos en hadoop
-
23-12-2019 - |
Pregunta
Tenemos dos tipos de registros:
1) Registro de sesión: session_id, user_id, start_date_time, end_date_time
2) Registro de eventos: session_id, fecha_time, x, y, z
Solo necesitamos almacenar el registro de eventos, pero desea reemplazar la sesión de la sesión con su usuario correspondiente.¿Qué tecnologías (es decir,?) ¿Deberíamos usarlos para almacenar los datos en HDFS?
¡Gracias!
Solución
Sí, el flote se puede usar para mover archivos de registro a HDFS.
para reemplazar session_id con user_id - usted podría:
Haga esto usando scripts de shell - y genere 'archivo de registro de eventos modificado': esto es lo que se recogerá Flume.Este sería el enfoque más sencillo.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow