Formato parquet: consigli sul contenuto del registro
-
31-10-2019 - |
Domanda
Sto usando uno script Python per registrare IO di un lavoro a griglia.
Il registro è formattato in questo modo:
timestamp;fullpath;event;size
1526994189.49;/tmp/folder/;IN_ISDIR;6
1526994189.49;/tmp/folder2/File;IN_ACCESS;36
Quei file sono lunghi milioni di linee. Sto usando Spark per generare grafici e rilevare anomalia nel lavoro IO. Ma prima di farlo devo inserire l'ID lavoro e il nome di lavoro alla colonna che fa il file:
timestamp;fullpath;event;size;jobid;jobname
1526994189.49;/tmp/folder/;IN_ISDIR;6;123456;afakejobname
1526994189.49;/tmp/folder2/File;IN_ACCESS;36;123456;afakejobname
Il fatto è che sono nuovo per le tecnologie dei big data e vorrei sapere se usare il formato parquet è meglio mettere entrambi jobname
e jobid
o sapere che ho solo 15 diversi nomi di lavoro e jobid nello stesso registro è meglio convertirlo al volo usando Sparksql e fare un join a un tavolo molto piccolo con solo jobname;jobid
e mettere solo il jobid
nel mio registro.
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a datascience.stackexchange