Domanda

So che posso leggere in modo molto grande csv file molto più veloce con fread usando il data.table biblioteca che con read.csv Questo legge un file come a data.frame. Tuttavia, dplyr può eseguire solo operazioni su data.frame.

Le mie domande sono:

  1. Perchè era dplyr Costruito per funzionare con il più lento delle due strutture di dati?
  2. Quando si lavora con i big data è una buona pratica leggere come data.table Quindi converti in data.frame per esibirsi dplyr operazioni?
  3. C'è un'altra strategia che mi manca?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top