Come faccio a generare by-gruppo di statistiche di riepilogo se la mia variabile di raggruppamento è un fattore?

https://stackoverflow.com/questions/4834957

27-10-2019
|

Domanda

Supponiamo che ho voluto ottenere alcune statistiche di riepilogo sulla mtcars dataset (parte della base di R versione 2.12.1). Di seguito, raggruppare le vetture in base al numero di cilindri del motore hanno e prendono i mezzi per-gruppo delle variabili rimanenti in mtcars.

> str(mtcars)
'data.frame': 32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
       mpg cyl     disp        hp     drat       wt     qsec        vs        am     gear
1 26.66364   4 105.1364  82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286   6 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000   8 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
      carb
1 1.545455
2 3.428571
3 3.500000

Ma, se la mia variabile di raggruppamento sembra essere un fattore di cose si fanno più complicato. ddply() lancia un avvertimento per ogni livello del fattore, poiché non si può prendere la mean() di un fattore.

> mtcars$cyl <- as.factor(mtcars$cyl)
> str(mtcars)
'data.frame': 32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
       mpg cyl     disp        hp     drat       wt     qsec        vs        am     gear
1 26.66364  NA 105.1364  82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286  NA 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000  NA 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
      carb
1 1.545455
2 3.428571
3 3.500000
Warning messages:
1: In mean.default(X[[2L]], ...) :
  argument is not numeric or logical: returning NA
2: In mean.default(X[[2L]], ...) :
  argument is not numeric or logical: returning NA
3: In mean.default(X[[2L]], ...) :
  argument is not numeric or logical: returning NA
>

Quindi, mi chiedo se sto solo andando sulla generazione di statistiche di riepilogo nel modo sbagliato.

Come si fa di solito generano strutture di dati di by-factor o gruppi statistiche riassuntive (come medie, deviazioni standard, ecc)? Dovrei usare qualcosa di diverso da ddply()? Se posso usare ddply(), cosa posso fare per evitare gli errori che risultato quando si cerca di prendere la media del mio fattore di raggruppamento?

Soluzione

Uso numcolwise(mean): la funzione numcolwise converte il suo argomento (una funzione) in una funzione che opera solo su colonne numeriche (e ignora le colonne categorica / fattore).

  > ddply(mtcars, .(cyl), numcolwise(mean))

      cyl      mpg     disp        hp     drat       wt     qsec        vs
    1   4 26.66364 105.1364  82.63636 4.070909 2.285727 19.13727 0.9090909
    2   6 19.74286 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286
    3   8 15.10000 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000
             am     gear     carb
    1 0.7272727 4.090909 1.545455
    2 0.4285714 3.857143 3.428571
    3 0.1428571 3.285714 3.500000

Altri suggerimenti

Non è una risposta qui, ma una constatazione. Questo non è un problema di per sé ddply(). Guarda questo. Il seguente entrambi bene il lavoro per produrre una tabella di mezzi:

aggregate(mtcars, by=list(mtcars$cyl), mean)
apply(mtcars, 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))

Ma dopo mtcars$cyl <- as.factor(mtcars$cyl) né del lavoro di cui sopra, perché R non sa come prendere la media di una colonna di fattori. Siamo in grado di evitarlo, eliminando quella colonna ( "cil" è la colonna 2) dalle cose passate per mean():

aggregate(mtcars[ , -2], by=list(mtcars$cyl), mean)
apply(mtcars[ , -2], 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))

Ma che è piuttosto goffo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow