Pandas Groupby fait mourir le noyau dans Jupyter Notebook / Python
Question
J'ai un groupe en Jupyter-notebook qui prend des siècles à courir et après 10 minutes de course, il est dit que «le noyau est mort ...»,
Le groupe ressemble à ceci:
df1.groupby(['date', 'unit', 'company', 'city'])['col1',
'col2',
'col3',
'col4',
...
'col20'].mean()
Toutes les colonnes «col» sont des valeurs flottantes. J'utilise tout localement. Des idées?
METTRE À JOUR:
La forme de DF1 est:
(1360, 24)
Mémoire et dtypes:
dtypes: category(3), datetime64[ns](2), float64(17), int64(2)
memory usage: 266.9 KB
La taille unique de la ville, de la date, de l'entreprise, de l'unité:
len(df1.date.unique()) = 789
len(df1.unit.unique()) = 76
len(df1.company.unique()) = 205
len(df1.city.unique()) = 237
J'ai 16 Go de mémoire sur MacBook Pro.
Mise à jour 2:
Cela ne fonctionne que si j'ai la date et l'unité à l'intérieur des colonnes groupby comme les 2 seules colonnes. Si j'ajoute une entreprise ou une ville, cela ne fonctionne plus, il continue de fonctionner indéfiniment.
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à datascience.stackexchange