Question

Je sais que je peux lire dans un très grand csv déposer beaucoup plus vite avec fread en utilisant le data.table bibliothèque qu'avec read.csv qui lit un fichier en tant que data.frame. Cependant, dplyr ne peut effectuer que des opérations sur data.frame.

Mes questions sont:

  1. Pourquoi était dplyr Construit pour fonctionner avec le plus lent des deux structures de données?
  2. Lorsque vous travaillez avec les mégadonnées, c'est une bonne pratique de lire comme data.table puis convertissez-vous à data.frame pour jouer dplyr opérations?
  3. Y a-t-il une autre stratégie qui me manque?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top