Pandas Groupby fa morire il kernel in Jupyter Notebook/Python

https://datascience.stackexchange.com/questions/51554

01-11-2019
|

Domanda

Ho un gruppo in jupyter-notebook che impiega anni a correre e dopo 10 minuti di corsa dice "Kernel è morto ...",

Il gruppo sembra questo:

df1.groupby(['date', 'unit', 'company', 'city'])['col1',
'col2',
'col3',
'col4',
  ...
'col20'].mean()

Tutte le colonne "col" sono valori galleggianti. Sto eseguendo tutto a livello locale. Qualche idea?

AGGIORNARE:

La forma di DF1 è:

(1360, 24)

Memoria e dtypes:

dtypes: category(3), datetime64[ns](2), float64(17), int64(2)
memory usage: 266.9 KB

La dimensione unica di città, data, azienda, unità:

len(df1.date.unique()) = 789
len(df1.unit.unique()) = 76
len(df1.company.unique()) = 205
len(df1.city.unique()) = 237

Ho 16 GB di memoria su MacBook Pro.

Aggiornamento 2:

Funziona solo se ho data e unità all'interno delle colonne GroupBy come uniche 2 colonne. Se aggiungo un'azienda o una città, non funziona più, continua a funzionare indefinitamente.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange