Pregunta

He estado desconcertado por la función cuantil R todo el día.

Tengo una noción intuitiva de cómo funcionan los cuantiles y un M.S.en estadísticas, pero vaya, vaya, la documentación me resulta confusa.

De los documentos:

Q [i] (p) = (1 - gamma) x [j] + gamma x [j + 1],

Estoy con eso hasta ahora.para un tipo i cuantil, es una interpolación entre x[j] y x [j+1], basada en alguna constante misteriosa gama

donde 1 <= i <= 9, (jm)/ n <= p <(j-m+1)/ n, x [j] es la estadística del orden jth, n es el tamaño de la muestra, y m es una constante determinada por el tipo de cuantil de muestra.Aquí Gamma depende de la parte fraccional de g = np+mj.

Entonces, ¿cómo calcular j?¿metro?

Para los tipos de cuantiles de muestra continua (4 a 9), los cuantiles de muestra se pueden obtener mediante interpolación lineal entre la estadística de orden KTH y P (k):

p (k) = (k - alfa) / (n - alfa - beta + 1), donde α y β son constantes determinadas por el tipo.Además, m = alfa + p (1 - alfa - beta), y gamma = g.

Ahora estoy realmente perdido.p, que antes era una constante, ahora aparentemente es una función.

Entonces, para los cuantiles de tipo 7, el valor predeterminado...

Tipo 7

p(k) = (k - 1) / (n - 1).En este caso, p(k) = modo[F(x[k])].Esto es utilizado por S.

Alguien quiere ayudarme?En particular, estoy confundido por la notación de que p es una función y una constante, ¿qué diablos? metro es, y ahora a calcular j para algún particular pag.

Espero que, según las respuestas aquí, podamos enviar alguna documentación revisada que explique mejor lo que está sucediendo aquí.

código fuente cuantil.Ro escriba:cuantil.predeterminado

¿Fue útil?

Solución

Es comprensible que estés confundido.Esa documentación es terrible.Tuve que volver al artículo en el que se basa (Hyndman, R.J.;Fan, Y.(noviembre de 1996)."Cuantiles de muestra en paquetes estadísticos". Estadístico americano 50 (4): 361–365. doi:10.2307/2684934) para lograr un entendimiento.Comencemos con el primer problema.

donde 1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] es el estadístico de orden j, n es el tamaño de la muestra y m es una constante determinada por el tipo de cuantil de muestra.Aquí gamma depende de la parte fraccionaria de g = np+m-j.

La primera parte proviene directamente del artículo, pero lo que los redactores de la documentación omitieron fue que j = int(pn+m).Esto significa Q[i](p) sólo depende de las estadísticas de dos órdenes más cercanas a ser p fracción del camino a través de las observaciones (ordenadas).(Para aquellos, como yo, que no están familiarizados con el término, las "estadísticas de orden" de una serie de observaciones son las series ordenadas).

Además, esa última frase es simplemente incorrecta.deberia leer

Aquí gamma depende de la parte fraccionaria de np+m, g = np+m-j

Como para m eso es sencillo. m Depende de cuál de los 9 algoritmos se eligió.Así como Q[i] es la función cuantil, m debería ser considerado m[i].Para los algoritmos 1 y 2, m es 0, por 3, m es -1/2, y para los demás, eso se encuentra en la siguiente parte.

Para los tipos de cuantiles de muestra continua (4 a 9), los cuantiles de muestra se pueden obtener mediante interpolación lineal entre el estadístico de orden k y p(k):

p(k) = (k - alfa) / (n - alfa - beta + 1), donde α y β son constantes determinadas por el tipo.Además, m = alfa + p(1 - alfa - beta) y gamma = g.

Esto es realmente confuso.Lo que llama la documentación p(k) no es lo mismo que el p desde antes. p(k) es el posición de trazado.En el artículo, los autores lo escriben como pk, lo que ayuda.Especialmente porque en la expresión para m, el p es el original p, y el m = alpha + p * (1 - alpha - beta).Conceptualmente, para los algoritmos 4-9, los puntos (pk, x[k]) se interpolan para obtener la solución (p, Q[i](p)).Cada algoritmo sólo difiere en el algoritmo para el pk.

En cuanto al último bit, R simplemente indica lo que usa S.

El artículo original proporciona una lista de 6 funciones de "propiedades deseables para una función cuantil de muestra" y establece una preferencia por el n.º 8, que satisface todas por 1.El número 5 satisface a todos, pero no les gusta por otros motivos (es más fenomenológico que derivado de principios).#2 es lo que los fanáticos de las estadísticas como yo considerarían los cuantiles y es lo que se describe en Wikipedia.

Por cierto, en respuesta a respuesta de dreeves, Mathematica hace las cosas de manera significativamente diferente.Creo que entiendo el mapeo.Si bien Mathematica es más fácil de entender, (a) es más fácil dispararse en el pie con parámetros sin sentido y (b) no puede ejecutar el algoritmo n.º 2 de R.(Aquí está Página de cuantiles de Mathworld, que establece que Mathematica no puede hacer el punto 2, pero ofrece una generalización más simple de todos los demás algoritmos en términos de cuatro parámetros).

Otros consejos

Hay varias formas de calcular cuantiles cuando le asignas un vector y no tienes una CDF conocida.

Considere la cuestión de qué hacer cuando sus observaciones no caen exactamente en cuantiles.

Los "tipos" simplemente determinan cómo hacerlo.Entonces, los métodos dicen: "use una interpolación lineal entre el estadístico de k-ésimo orden y p(k)".

Entonces, ¿qué es p(k)?Un chico dice: "bueno, me gusta usar k/n".Otro chico dice: "Me gusta usar (k-1)/(n-1)", etc.Cada uno de estos métodos tiene diferentes propiedades que se adaptan mejor a un problema u otro.

Los \alpha y \beta son solo formas de parametrizar las funciones p.En un caso, son 1 y 1.En otro caso, son 3/8 y -1/4.No creo que las p sean alguna vez una constante en la documentación.Simplemente no siempre muestran la dependencia explícitamente.

Vea lo que sucede con los diferentes tipos cuando ingresa vectores como 1:5 y 1:6.

(Tenga en cuenta también que incluso si sus observaciones caen exactamente en los cuantiles, ciertos tipos seguirán usando interpolación lineal).

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top