Spiegare il quantile() la funzione in R

https://stackoverflow.com/questions/95007

01-07-2019
|

Domanda

Sono stato sconcertato dal R funzione quantile tutto il giorno.

Ho una nozione intuitiva di come quantili di lavoro, e un M. S.in stats, ma boy oh boy, la documentazione è fonte di confusione per me.

Dal docs:

Q[i](p) = (1 - gamma) x[j] + gamma x[j+1],

Io finora con esso.Per un tipo di io quantile, è un'interpolazione tra x[j] e x [j+1], sulla base di alcune misteriose costante gamma

dove 1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] è esimo ordine statistica, n è la dimensione del campione e m è una costante determinata dal campione quantile tipo.Qui di gamma dipende la parte frazionaria di g = np+m-j.

Così, come calcolare j?m?

Per il continuo quantile del campione tipi (da 4 a 9), il campione quantili può essere ottenuto da una lineare interpolazione tra il kth di ordine statistica e p(k):

p(k) = (k - alpha) / (n - alpha - beta + 1), dove α e β sono costanti determinato dal tipo.Inoltre, m = alfa + p(1 - alfa - beta) e gamma = g.

Ora mi sono veramente perso.p, che è stato un costante prima, ora è a quanto pare una funzione.

Così, per Tipo 7 quantili, il valore di default...

Tipo 7

p(k) = (k - 1) / (n - 1).In questo caso, p(k) = modalità[F(x[k])].Questo è utilizzato da S.

Nessuno vuole aiutarmi?In particolare mi sono confuso con la notazione di p di essere una funzione e una costante, e che diamine m si, e ora a calcolare j per qualche particolare p.

Spero che sulla base delle risposte qui, siamo in grado di presentare alcuni rivisto documentazione che spieghi meglio cosa sta succedendo qui.

quantile.R codice sorgente o tipo:quantile.di default

Soluzione

Sei comprensibilmente confuso.Che la documentazione è terribile.Ho dovuto tornare alla carta basato su (Hyndman, R. J.;Ventola, Y.(Novembre 1996)."Campione Quantili in Pacchetti Statistici". Statistico Americano 50 (4): 361–365. doi:10.2307/2684934) per ottenere una comprensione.Cominciamo con il primo problema.

dove 1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] è esimo ordine di statistica, n è la dimensione del campione, e m è una costante determinata dalla quantile del campione tipo.Qui di gamma dipende dalla parte frazionaria di g = np+m-j.

La prima parte arriva direttamente dalla carta, ma che gli autori di documentazione è stato omesso che j = int(pn+m).Questo significa Q[i](p) dipende solo da due statistiche d'ordine più vicino a p frazione del modo attraverso il (ordinati) osservazioni.(Per chi, come me, che non hanno familiarità con il termine, il "statistiche d'ordine" di una serie di osservazioni è ordinato in serie.)

Inoltre, che l'ultima frase è semplicemente sbagliato.Dovrebbe leggere

Qui di gamma dipende dalla parte frazionaria di np+m, g = np+m-j

Come per m che semplice. m dipende da quale dei 9 algoritmi è stato scelto.Così, proprio come Q[i] è la funzione quantile, m dovrebbe essere considerato m[i].Per gli algoritmi 1 e 2, m è 0, 3, m è -1/2, e per gli altri, che nella prossima parte.

Per il continuo quantile del campione tipi (da 4 a 9), il campione quantili possono essere ottenuti mediante interpolazione lineare tra il kth di ordine statistico e p(k):

p(k) = (k - alpha) / (n - alpha - beta + 1), dove a e b sono costanti determinati dal tipo.Inoltre, m = alfa + p(1 - alfa - beta) e gamma = g.

Questo è veramente fuorviante.Che cosa la documentazione chiamate p(k) non è la stessa come l' p da prima. p(k) è il plotting position.Nel libro, gli autori scrivono come p_k, che aiuta.Soprattutto perché nell'espressione per m, il p è l'originale p, e il m = alpha + p * (1 - alpha - beta).Concettualmente, per gli algoritmi 4-9, i punti (p_k, x[k]) vengono interpolati per ottenere la soluzione (p, Q[i](p)).Ogni algoritmo differisce solo nell'algoritmo per la p_k.

Come per l'ultimo bit, R è solo affermando che S usa.

La carta originale dà un elenco di 6 "proprietà desiderabili per un campione quantile" la funzione, e stabilisce una preferenza per il #8, che soddisfa tutti da 1.#5 soddisfa tutti loro, ma a loro non piace per altri motivi (è più fenomenologico di derivati da principi).#2 è quello che non stat geek come me vorresti prendere in considerazione i quantili e è ciò che è descritto in wikipedia.

BTW, in risposta a dreeves risposta, Mathematica fa le cose in modo significativo in modo diverso.Penso di capire la mappatura.Mentre Mathematica è più facile da capire, (a) è più facile spararsi in un piede con la mancanza di senso di parametri, e (b) non può fare R algoritmo #2.(Qui Mathworld del Quantile pagina, che gli stati Mathematica non si può fare, #2, ma dà una semplice generalizzazione di tutti gli altri algoritmi in termini di quattro parametri).

Altri suggerimenti

Ci sono vari modi per il calcolo dei quantili quando si dà un vettore, e non hanno conosciuto CDF.

Si consideri il problema di che cosa fare quando le tue osservazioni non cadano sul quantili esattamente.

I "tipi" sono solo la determinazione di come farlo.Così, i metodi di dire, "l'uso di un'interpolazione lineare tra il k-esima statistica d'ordine e p(k)".

Quindi, cosa c'è di p(k)?Un ragazzo dice: "beh, mi piace usare k/n".Un altro ragazzo dice: "mi piace usare (k-1)/(n-1)" etc.Ciascuno di questi metodi hanno proprietà differenti che sono più adatti per un problema o per l'altro.

L' \alpha e \beta sono solo modi per parametrizzare le funzioni di p.In un caso, sono 1 e 1.In un altro caso, sono 3/8 -1/4.Non credo che il p sono sempre una costante nella documentazione.Solo che non sempre mostra la dipendenza in modo esplicito.

Vedere cosa succede con diversi tipi di quando si mette in vettori come 1:5 e 1:6.

(si noti inoltre che anche se le tue osservazioni cadere esattamente sulla quantili, alcuni tipi continuano a utilizzare l'interpolazione lineare).

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow