Formato parquet: consigli sul contenuto del registro

https://datascience.stackexchange.com/questions/31985

31-10-2019
|

Domanda

Sto usando uno script Python per registrare IO di un lavoro a griglia.
Il registro è formattato in questo modo:

timestamp;fullpath;event;size
1526994189.49;/tmp/folder/;IN_ISDIR;6
1526994189.49;/tmp/folder2/File;IN_ACCESS;36

Quei file sono lunghi milioni di linee. Sto usando Spark per generare grafici e rilevare anomalia nel lavoro IO. Ma prima di farlo devo inserire l'ID lavoro e il nome di lavoro alla colonna che fa il file:

timestamp;fullpath;event;size;jobid;jobname
1526994189.49;/tmp/folder/;IN_ISDIR;6;123456;afakejobname
1526994189.49;/tmp/folder2/File;IN_ACCESS;36;123456;afakejobname

Il fatto è che sono nuovo per le tecnologie dei big data e vorrei sapere se usare il formato parquet è meglio mettere entrambi jobname e jobid
o sapere che ho solo 15 diversi nomi di lavoro e jobid nello stesso registro è meglio convertirlo al volo usando Sparksql e fare un join a un tavolo molto piccolo con solo jobname;jobid e mettere solo il jobid nel mio registro.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange