Format parquet: conseiller sur le contenu du journal

https://datascience.stackexchange.com/questions/31985

31-10-2019
|

Question

J'utilise un script Python pour enregistrer IO d'un travail de grille.
Le journal est formaté comme ceci:

timestamp;fullpath;event;size
1526994189.49;/tmp/folder/;IN_ISDIR;6
1526994189.49;/tmp/folder2/File;IN_ACCESS;36

Ces fichiers sont des millions de lignes longues. J'utilise Spark pour générer des graphiques et détecter l'anomalie dans Job Io. Mais avant de le faire, j'ai besoin d'insérer l'ID de travail et le nom de travail vers la colonne faisant le fichier:

timestamp;fullpath;event;size;jobid;jobname
1526994189.49;/tmp/folder/;IN_ISDIR;6;123456;afakejobname
1526994189.49;/tmp/folder2/File;IN_ACCESS;36;123456;afakejobname

Le fait est que je suis nouveau dans les technologies de Big Data et j'aimerais savoir si l'utilisation du format Parquet est préférable de mettre les deux jobname et jobid
Ou sachant que je n'ai que 15 JobName et Jobid différents dans le même journal est-il préférable de le convertir à la volée à l'aide de SPARKSQL et de se joindre à une très petite table avec juste jobname;jobid Et mettez uniquement le jobid Dans mon journal.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange