Spiegare il quantile() la funzione in R
-
01-07-2019 - |
Domanda
Sono stato sconcertato dal R funzione quantile tutto il giorno.
Ho una nozione intuitiva di come quantili di lavoro, e un M. S.in stats, ma boy oh boy, la documentazione è fonte di confusione per me.
Dal docs:
Q[i](p) = (1 - gamma) x[j] + gamma x[j+1],
Io finora con esso.Per un tipo di io quantile, è un'interpolazione tra x[j] e x [j+1], sulla base di alcune misteriose costante gamma
dove 1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] è esimo ordine statistica, n è la dimensione del campione e m è una costante determinata dal campione quantile tipo.Qui di gamma dipende la parte frazionaria di g = np+m-j.
Così, come calcolare j?m?
Per il continuo quantile del campione tipi (da 4 a 9), il campione quantili può essere ottenuto da una lineare interpolazione tra il kth di ordine statistica e p(k):
p(k) = (k - alpha) / (n - alpha - beta + 1), dove α e β sono costanti determinato dal tipo.Inoltre, m = alfa + p(1 - alfa - beta) e gamma = g.
Ora mi sono veramente perso.p, che è stato un costante prima, ora è a quanto pare una funzione.
Così, per Tipo 7 quantili, il valore di default...
Tipo 7
p(k) = (k - 1) / (n - 1).In questo caso, p(k) = modalità[F(x[k])].Questo è utilizzato da S.
Nessuno vuole aiutarmi?In particolare mi sono confuso con la notazione di p di essere una funzione e una costante, e che diamine m si, e ora a calcolare j per qualche particolare p.
Spero che sulla base delle risposte qui, siamo in grado di presentare alcuni rivisto documentazione che spieghi meglio cosa sta succedendo qui.
quantile.R codice sorgente o tipo:quantile.di default
Soluzione
Sei comprensibilmente confuso.Che la documentazione è terribile.Ho dovuto tornare alla carta basato su (Hyndman, R. J.;Ventola, Y.(Novembre 1996)."Campione Quantili in Pacchetti Statistici". Statistico Americano 50 (4): 361–365. doi:10.2307/2684934) per ottenere una comprensione.Cominciamo con il primo problema.
dove 1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] è esimo ordine di statistica, n è la dimensione del campione, e m è una costante determinata dalla quantile del campione tipo.Qui di gamma dipende dalla parte frazionaria di g = np+m-j.
La prima parte arriva direttamente dalla carta, ma che gli autori di documentazione è stato omesso che j = int(pn+m)
.Questo significa Q[i](p)
dipende solo da due statistiche d'ordine più vicino a p
frazione del modo attraverso il (ordinati) osservazioni.(Per chi, come me, che non hanno familiarità con il termine, il "statistiche d'ordine" di una serie di osservazioni è ordinato in serie.)
Inoltre, che l'ultima frase è semplicemente sbagliato.Dovrebbe leggere
Qui di gamma dipende dalla parte frazionaria di np+m, g = np+m-j
Come per m
che semplice. m
dipende da quale dei 9 algoritmi è stato scelto.Così, proprio come Q[i]
è la funzione quantile, m
dovrebbe essere considerato m[i]
.Per gli algoritmi 1 e 2, m
è 0, 3, m
è -1/2, e per gli altri, che nella prossima parte.
Per il continuo quantile del campione tipi (da 4 a 9), il campione quantili possono essere ottenuti mediante interpolazione lineare tra il kth di ordine statistico e p(k):
p(k) = (k - alpha) / (n - alpha - beta + 1), dove a e b sono costanti determinati dal tipo.Inoltre, m = alfa + p(1 - alfa - beta) e gamma = g.
Questo è veramente fuorviante.Che cosa la documentazione chiamate p(k)
non è la stessa come l' p
da prima. p(k)
è il plotting position.Nel libro, gli autori scrivono come p
k
, che aiuta.Soprattutto perché nell'espressione per m
, il p
è l'originale p
, e il m = alpha + p * (1 - alpha - beta)
.Concettualmente, per gli algoritmi 4-9, i punti (p
k
, x[k]
) vengono interpolati per ottenere la soluzione (p
, Q[i](p)
).Ogni algoritmo differisce solo nell'algoritmo per la p
k
.
Come per l'ultimo bit, R è solo affermando che S usa.
La carta originale dà un elenco di 6 "proprietà desiderabili per un campione quantile" la funzione, e stabilisce una preferenza per il #8, che soddisfa tutti da 1.#5 soddisfa tutti loro, ma a loro non piace per altri motivi (è più fenomenologico di derivati da principi).#2 è quello che non stat geek come me vorresti prendere in considerazione i quantili e è ciò che è descritto in wikipedia.
BTW, in risposta a dreeves risposta, Mathematica fa le cose in modo significativo in modo diverso.Penso di capire la mappatura.Mentre Mathematica è più facile da capire, (a) è più facile spararsi in un piede con la mancanza di senso di parametri, e (b) non può fare R algoritmo #2.(Qui Mathworld del Quantile pagina, che gli stati Mathematica non si può fare, #2, ma dà una semplice generalizzazione di tutti gli altri algoritmi in termini di quattro parametri).
Altri suggerimenti
Ci sono vari modi per il calcolo dei quantili quando si dà un vettore, e non hanno conosciuto CDF.
Si consideri il problema di che cosa fare quando le tue osservazioni non cadano sul quantili esattamente.
I "tipi" sono solo la determinazione di come farlo.Così, i metodi di dire, "l'uso di un'interpolazione lineare tra il k-esima statistica d'ordine e p(k)".
Quindi, cosa c'è di p(k)?Un ragazzo dice: "beh, mi piace usare k/n".Un altro ragazzo dice: "mi piace usare (k-1)/(n-1)" etc.Ciascuno di questi metodi hanno proprietà differenti che sono più adatti per un problema o per l'altro.
L' \alpha e \beta sono solo modi per parametrizzare le funzioni di p.In un caso, sono 1 e 1.In un altro caso, sono 3/8 -1/4.Non credo che il p sono sempre una costante nella documentazione.Solo che non sempre mostra la dipendenza in modo esplicito.
Vedere cosa succede con diversi tipi di quando si mette in vettori come 1:5 e 1:6.
(si noti inoltre che anche se le tue osservazioni cadere esattamente sulla quantili, alcuni tipi continuano a utilizzare l'interpolazione lineare).