Pandas Groupby fait mourir le noyau dans Jupyter Notebook / Python

https://datascience.stackexchange.com/questions/51554

01-11-2019
|

Question

J'ai un groupe en Jupyter-notebook qui prend des siècles à courir et après 10 minutes de course, il est dit que «le noyau est mort ...»,

Le groupe ressemble à ceci:

df1.groupby(['date', 'unit', 'company', 'city'])['col1',
'col2',
'col3',
'col4',
  ...
'col20'].mean()

Toutes les colonnes «col» sont des valeurs flottantes. J'utilise tout localement. Des idées?

METTRE À JOUR:

La forme de DF1 est:

(1360, 24)

Mémoire et dtypes:

dtypes: category(3), datetime64[ns](2), float64(17), int64(2)
memory usage: 266.9 KB

La taille unique de la ville, de la date, de l'entreprise, de l'unité:

len(df1.date.unique()) = 789
len(df1.unit.unique()) = 76
len(df1.company.unique()) = 205
len(df1.city.unique()) = 237

J'ai 16 Go de mémoire sur MacBook Pro.

Mise à jour 2:

Cela ne fonctionne que si j'ai la date et l'unité à l'intérieur des colonnes groupby comme les 2 seules colonnes. Si j'ajoute une entreprise ou une ville, cela ne fonctionne plus, il continue de fonctionner indéfiniment.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange