Explicar a função quantil () em I
-
01-07-2019 - |
Pergunta
Eu tenho mistificado pela função R quantil durante todo o dia.
Eu tenho uma noção intuitiva de como quantis trabalho, e um M.S. nas estatísticas, mas boy oh boy, a documentação para ele é confuso para mim.
De docs:
Q [i] (p) = (1 - gama) x [J] + gamma x [j + 1],
Eu estou com ele até agora. Para um tipo de i quantil, que é uma interpolação entre x [j] e x [j + 1], com base em alguns constante misteriosa gama
onde 1 <= i <= 9, (j-m) / n <= p < (J-m + 1) / n, x [j] é a ordem de ordem j estatística, n é o tamanho da amostra, e m é uma constante determinada pela amostra Tipo de quantil. Aqui gamma depende a parte fraccionada de g = NP + m-j.
Assim, j como calcular? m?
Para o quantil amostra contínua tipos (4 a 9), a amostra quantis pode ser obtido por linear interpolação entre a ordem de ordem k estatística e p (k):
p (k) = (k - alfa) / (n - alfa - beta + 1), onde a e ß são constantes determinadas pelo tipo. Além disso, m = alfa + p (1 - alfa -. Beta), e gama = g
Agora estou realmente perdido. p, o que foi uma constante antes, agora é aparentemente uma função.
Assim, por tipo 7 quantiles, o padrão ...
Tipo 7
p (k) = (k - 1) / (n - 1). Neste caso, p (k) = modo de [M (X [k])]. Isto é usado por S.
Alguém quer me ajudar? Em particular, eu estou confuso com a notação de p sendo uma função e uma constante, o que o Parreira m é, e agora j calcular por algum em particular p .
Espero que, com base nas respostas aqui, podemos enviar alguma documentação revista que melhor explica o que está acontecendo aqui.
quantile.R código-fonte ou tipo: quantile.default
Solução
Você está compreensivelmente confuso. Essa documentação é terrível. Eu tive que voltar para o papel a sua base em (Hyndman, RJ; Fan, Y. (Novembro de 1996) "Quantis amostra em pacotes estatísticos" American estatístico 50 (4):.. 361-365 . doi: 10,2307 / 2.684.934 ) para obter um entendimento. Vamos começar com o primeiro problema.
onde 1 <= i <= 9, (jm) / n <= p <(jm + 1) / n, x [j] é a estatística ordem de ordem j, n é o tamanho da amostra, e m é uma constante determinada pelo tipo quantil amostra. Aqui gama depende da parte fraccionada de g = NP + m-j.
A primeira parte vem direto do papel, mas o que os escritores de documentação omitido foi que j = int(pn+m)
. Isto significa Q[i](p)
depende apenas das duas estatísticas de ordem mais próxima de ser fração p
do caminho através das observações (ordenadas). (Para aqueles que, como eu, que não estão familiarizados com o termo, "Estatísticas da ordem" de uma série de observações é a série ordenada.)
Além disso, a última frase é simplesmente errado. Ele deve ler
Aqui gama depende da parte fraccionada de np + m, g = NP + m-j
Como para m
isso é simples. m
depende de qual dos 9 algoritmos foi escolhido. Assim como Q[i]
é a função quantil, m
deve ser considerada m[i]
. Para algoritmos 1 e 2, m
é 0, para 3, m
é -1/2, e para os outros, que está na parte seguinte.
Para os tipos de amostra de quantis contínuas (4 a 9), os quantis amostra pode ser obtido por interpolação linear entre a estatística ordem de ordem k e p (k):
p (k) = (k - alfa) / (n - alfa - beta + 1), onde a e ß são constantes determinadas pelo tipo. Além disso, m = alfa + p. (1 - alfa - beta), e gama = g
Este é realmente confuso. O que a documentação chama p(k)
não é o mesmo que o p
de antes. p(k)
é o trama posição . No artigo, os autores escrevê-lo como p
k
, o que ajuda. Especialmente porque na expressão para m
, o p
é o p
original, e o m = alpha + p * (1 - alpha - beta)
. Conceitualmente, para algoritmos 4-9, os pontos (p
k
, x[k]
) são interpolados para obter a solução (p
, Q[i](p)
). Cada algoritmo apenas difere no algoritmo para o p
k
.
Quanto ao último bit, R é apenas afirmando que S usa.
O artigo original dá uma lista de 6 "propriedades desejáveis ??para uma quantil amostra" função, e afirma uma preferência para # 8, que satisfaz todos por 1. # 5 satisfaz todos eles, mas eles não gostam lo em outra motivos (é mais fenomenológica do que derivada de princípios). # 2 é o que os geeks não-STAT como eu consideraria os quantis e é o que está descrito na wikipedia.
BTW, em resposta à responder , Mathematica faz coisas significativamente diferente. Eu acho que entendo o mapeamento. Enquanto Mathematica é mais fácil de entender, (a) é mais fácil de atirar no próprio pé com os parâmetros sem sentido, e (b) que não pode fazer o algoritmo de R # 2. (Aqui está página Quantile de Mathworld, que afirma Mathematica não pode fazer # 2, mas dá uma generalização mais simples de todos os outros algoritmos em termos de quatro parâmetros.)
Outras dicas
Existem várias maneiras de quantiles computação quando você dá um vetor, e não têm um CDF conhecido.
Considere a questão do que fazer quando suas observações não caiam sobre quantiles exatamente.
Os "tipos" são apenas determinar como fazer isso. Assim, os métodos dizem, "usar uma interpolação linear entre o k-th ordem estatística e p (k)".
Então, qual é p (k)? Um cara diz: "bem, eu gosto de usar k / n". Outro tipo diz, "I como para uso (k-1) / (N-1)", etc. Cada um destes métodos tem propriedades diferentes que são mais adequados para um problema ou outro.
O O \ alpha e \ do beta são apenas maneiras de parametrizar as funções p. Em um dos casos, eles são 1 e 1. Em outro caso, eles são 3/8 e -1/4. Eu não acho que as p de são sempre uma constante na documentação. Eles só nem sempre mostram a dependência explicitamente.
Veja o que acontece com os diferentes tipos quando você colocar em vetores como 1: 5 e 1: 6.
(também notar que mesmo se suas observações cair exatamente sobre os quantis, certos tipos ainda usará interpolação linear).