Explicar a função quantil () em I

https://stackoverflow.com/questions/95007

01-07-2019
|

Pergunta

Eu tenho mistificado pela função R quantil durante todo o dia.

Eu tenho uma noção intuitiva de como quantis trabalho, e um M.S. nas estatísticas, mas boy oh boy, a documentação para ele é confuso para mim.

De docs:

Q [i] (p) = (1 - gama) x [J] + gamma x [j + 1],

Eu estou com ele até agora. Para um tipo de i quantil, que é uma interpolação entre x [j] e x [j + 1], com base em alguns constante misteriosa gama

onde 1 <= i <= 9, (j-m) / n <= p < (J-m + 1) / n, x [j] é a ordem de ordem j estatística, n é o tamanho da amostra, e m é uma constante determinada pela amostra Tipo de quantil. Aqui gamma depende a parte fraccionada de g = NP + m-j.

Assim, j como calcular? m?

Para o quantil amostra contínua tipos (4 a 9), a amostra quantis pode ser obtido por linear interpolação entre a ordem de ordem k estatística e p (k):

p (k) = (k - alfa) / (n - alfa - beta + 1), onde a e ß são constantes determinadas pelo tipo. Além disso, m = alfa + p (1 - alfa -. Beta), e gama = g

Agora estou realmente perdido. p, o que foi uma constante antes, agora é aparentemente uma função.

Assim, por tipo 7 quantiles, o padrão ...

Tipo 7

p (k) = (k - 1) / (n - 1). Neste caso, p (k) = modo de [M (X [k])]. Isto é usado por S.

Alguém quer me ajudar? Em particular, eu estou confuso com a notação de p sendo uma função e uma constante, o que o Parreira m é, e agora j calcular por algum em particular p .

Espero que, com base nas respostas aqui, podemos enviar alguma documentação revista que melhor explica o que está acontecendo aqui.

quantile.R código-fonte ou tipo: quantile.default

Solução

Você está compreensivelmente confuso. Essa documentação é terrível. Eu tive que voltar para o papel a sua base em (Hyndman, RJ; Fan, Y. (Novembro de 1996) "Quantis amostra em pacotes estatísticos" American estatístico 50 (4):.. 361-365 . doi: 10,2307 / 2.684.934 ) para obter um entendimento. Vamos começar com o primeiro problema.

onde 1 <= i <= 9, (jm) / n <= p <(jm + 1) / n, x [j] é a estatística ordem de ordem j, n é o tamanho da amostra, e m é uma constante determinada pelo tipo quantil amostra. Aqui gama depende da parte fraccionada de g = NP + m-j.

A primeira parte vem direto do papel, mas o que os escritores de documentação omitido foi que j = int(pn+m). Isto significa Q[i](p) depende apenas das duas estatísticas de ordem mais próxima de ser fração p do caminho através das observações (ordenadas). (Para aqueles que, como eu, que não estão familiarizados com o termo, "Estatísticas da ordem" de uma série de observações é a série ordenada.)

Além disso, a última frase é simplesmente errado. Ele deve ler

Aqui gama depende da parte fraccionada de np + m, g = NP + m-j

Como para m isso é simples. m depende de qual dos 9 algoritmos foi escolhido. Assim como Q[i] é a função quantil, m deve ser considerada m[i]. Para algoritmos 1 e 2, m é 0, para 3, m é -1/2, e para os outros, que está na parte seguinte.

Para os tipos de amostra de quantis contínuas (4 a 9), os quantis amostra pode ser obtido por interpolação linear entre a estatística ordem de ordem k e p (k):

p (k) = (k - alfa) / (n - alfa - beta + 1), onde a e ß são constantes determinadas pelo tipo. Além disso, m = alfa + p. (1 - alfa - beta), e gama = g

Este é realmente confuso. O que a documentação chama p(k) não é o mesmo que o p de antes. p(k) é o trama posição . No artigo, os autores escrevê-lo como p _k, o que ajuda. Especialmente porque na expressão para m, o p é o p original, e o m = alpha + p * (1 - alpha - beta). Conceitualmente, para algoritmos 4-9, os pontos (p _k, x[k]) são interpolados para obter a solução (p, Q[i](p)). Cada algoritmo apenas difere no algoritmo para o p _k.

Quanto ao último bit, R é apenas afirmando que S usa.

O artigo original dá uma lista de 6 "propriedades desejáveis ??para uma quantil amostra" função, e afirma uma preferência para # 8, que satisfaz todos por 1. # 5 satisfaz todos eles, mas eles não gostam lo em outra motivos (é mais fenomenológica do que derivada de princípios). # 2 é o que os geeks não-STAT como eu consideraria os quantis e é o que está descrito na wikipedia.

BTW, em resposta à responder , Mathematica faz coisas significativamente diferente. Eu acho que entendo o mapeamento. Enquanto Mathematica é mais fácil de entender, (a) é mais fácil de atirar no próprio pé com os parâmetros sem sentido, e (b) que não pode fazer o algoritmo de R # 2. (Aqui está página Quantile de Mathworld, que afirma Mathematica não pode fazer # 2, mas dá uma generalização mais simples de todos os outros algoritmos em termos de quatro parâmetros.)

Outras dicas

Existem várias maneiras de quantiles computação quando você dá um vetor, e não têm um CDF conhecido.

Considere a questão do que fazer quando suas observações não caiam sobre quantiles exatamente.

Os "tipos" são apenas determinar como fazer isso. Assim, os métodos dizem, "usar uma interpolação linear entre o k-th ordem estatística e p (k)".

Então, qual é p (k)? Um cara diz: "bem, eu gosto de usar k / n". Outro tipo diz, "I como para uso (k-1) / (N-1)", etc. Cada um destes métodos tem propriedades diferentes que são mais adequados para um problema ou outro.

O O \ alpha e \ do beta são apenas maneiras de parametrizar as funções p. Em um dos casos, eles são 1 e 1. Em outro caso, eles são 3/8 e -1/4. Eu não acho que as p de são sempre uma constante na documentação. Eles só nem sempre mostram a dependência explicitamente.

Veja o que acontece com os diferentes tipos quando você colocar em vetores como 1: 5 e 1: 6.

(também notar que mesmo se suas observações cair exatamente sobre os quantis, certos tipos ainda usará interpolação linear).

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow