Come faccio a generare by-gruppo di statistiche di riepilogo se la mia variabile di raggruppamento è un fattore?
Domanda
Supponiamo che ho voluto ottenere alcune statistiche di riepilogo sulla mtcars
dataset (parte della base di R versione 2.12.1).
Di seguito, raggruppare le vetture in base al numero di cilindri del motore hanno e prendono i mezzi per-gruppo delle variabili rimanenti in mtcars
.
> str(mtcars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
mpg cyl disp hp drat wt qsec vs am gear
1 26.66364 4 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286 6 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000 8 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
carb
1 1.545455
2 3.428571
3 3.500000
Ma, se la mia variabile di raggruppamento sembra essere un fattore di cose si fanno più complicato. ddply()
lancia un avvertimento per ogni livello del fattore,
poiché non si può prendere la mean()
di un fattore.
> mtcars$cyl <- as.factor(mtcars$cyl)
> str(mtcars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
mpg cyl disp hp drat wt qsec vs am gear
1 26.66364 NA 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286 NA 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000 NA 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
carb
1 1.545455
2 3.428571
3 3.500000
Warning messages:
1: In mean.default(X[[2L]], ...) :
argument is not numeric or logical: returning NA
2: In mean.default(X[[2L]], ...) :
argument is not numeric or logical: returning NA
3: In mean.default(X[[2L]], ...) :
argument is not numeric or logical: returning NA
>
Quindi, mi chiedo se sto solo andando sulla generazione di statistiche di riepilogo nel modo sbagliato.
Come si fa di solito generano strutture di dati di by-factor o gruppi statistiche riassuntive (come medie, deviazioni standard, ecc)? Dovrei usare qualcosa di diverso da ddply()
? Se posso usare ddply()
, cosa posso fare per evitare gli errori che risultato quando si cerca di prendere la media del mio fattore di raggruppamento?
Soluzione
Uso numcolwise(mean)
: la funzione numcolwise
converte il suo argomento (una funzione) in una funzione che opera solo su colonne numeriche (e ignora le colonne categorica / fattore).
> ddply(mtcars, .(cyl), numcolwise(mean))
cyl mpg disp hp drat wt qsec vs
1 4 26.66364 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909
2 6 19.74286 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286
3 8 15.10000 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000
am gear carb
1 0.7272727 4.090909 1.545455
2 0.4285714 3.857143 3.428571
3 0.1428571 3.285714 3.500000
Altri suggerimenti
Non è una risposta qui, ma una constatazione. Questo non è un problema di per sé ddply()
. Guarda questo. Il seguente entrambi bene il lavoro per produrre una tabella di mezzi:
aggregate(mtcars, by=list(mtcars$cyl), mean)
apply(mtcars, 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))
Ma dopo mtcars$cyl <- as.factor(mtcars$cyl)
né del lavoro di cui sopra, perché R non sa come prendere la media di una colonna di fattori. Siamo in grado di evitarlo, eliminando quella colonna ( "cil" è la colonna 2) dalle cose passate per mean()
:
aggregate(mtcars[ , -2], by=list(mtcars$cyl), mean)
apply(mtcars[ , -2], 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))
Ma che è piuttosto goffo.