Объясните функцию quantile() в R

https://stackoverflow.com/questions/95007

01-07-2019
|

Вопрос

Я весь день был озадачен функцией R-квантиля.

У меня есть интуитивное представление о том, как работают квантили, и M.S.в статистике, но, боже мой, документация для этого сбивает меня с толку.

Из документов:

Q[i](p) = (1 - гамма) x[j] + гамма x[j+1],

Пока что я согласен с этим.Для типа i квантиль, это интерполяция между x [j] и x [j+ 1], основанная на какой-то таинственной константе гамма

где 1 <= я <= 9, (дж-м)/н <= p < (j-m + 1) / n, x[j] - j-й порядок статистика, n - размер выборки, а m - константа, определяемая выборкой тип квантиля.Здесь гамма зависит от дробной части g = np+m-j.

Итак, как вычислить j?м?

Для квантиля непрерывной выборки типы (с 4 по 9), квантили выборки могут быть получены линейным методом интерполяция между k-м порядком статистика и p(k):

p(k) = (k - альфа) / (n - альфа - бета + 1), где α и β - константы, определяемые типом.Далее, m = альфа + p(1 - альфа - бета), а гамма = g.

Теперь я действительно заблудился.p, которое раньше было константой, теперь, по-видимому, является функцией.

Итак, для квантилей типа 7 используется значение по умолчанию...

Тип 7

p(k) = (k - 1) / (n - 1).В этом случае p(k) = режим[F(x[k])].Это используется S.

Кто-нибудь хочет мне помочь?В частности, меня смущает обозначение p как функции и константы, какого черта m есть, а теперь вычислим j для некоторого конкретного p.

Я надеюсь, что на основе приведенных здесь ответов мы сможем представить некоторую пересмотренную документацию, которая лучше объясняет, что здесь происходит.

квантиль.Исходный код R или введите:квантиль.По умолчанию

Решение

Понятно, что вы в замешательстве.Эта документация ужасна.Мне пришлось вернуться к статье, на которой она основана (Хайндман, Р.Дж.;Фанат, Y.(Ноябрь 1996 года)."Выборочные квантили в статистических пакетах". Американский Статистик 50 (4): 361–365. doi: 10.2307/2684934), чтобы добиться понимания.Давайте начнем с первой проблемы.

где 1 <= я <= 9, (дж-м)/н <= p < (j-m + 1) / n, x[j] - статистика j-го порядка, n - размер выборки, а m - константа, определяемая типом квантиля выборки.Здесь гамма зависит от дробной части g = np+m-j.

Первая часть взята прямо из статьи, но авторы документации опустили то, что j = int(pn+m).Это означает Q[i](p) зависит только от статистики двух порядков, наиболее близкой к тому, чтобы быть p часть пути по (отсортированным) наблюдениям.(Для тех, кто, как и я, не знаком с этим термином, "статистика порядка" серии наблюдений - это отсортированная серия.)

Кроме того, это последнее предложение просто неверно.Он должен гласить

Здесь гамма зависит от дробной части np+m, g = np+m-j

Что касается m это очень просто. m зависит от того, какой из 9 алгоритмов был выбран.Так что просто как Q[i] является квантильной функцией, m следует учитывать m[i].Для алгоритмов 1 и 2, m равно 0, для 3, m равно -1 / 2, а для остальных это будет в следующей части.

Для типов квантилей непрерывной выборки (с 4 по 9) квантили выборки могут быть получены путем линейной интерполяции между статистикой k-го порядка и p(k):

p(k) = (k - альфа) / (n - альфа - бета + 1), где α и β - константы, определяемые типом.Далее, m = альфа + p(1 - альфа - бета), а гамма = g.

Это действительно сбивает с толку.То, что в документации называется p(k) это не то же самое, что p из прошлого. p(k) является ли положение на графике.В своей статье авторы пишут это следующим образом p_k, что помогает.Тем более, что в выражении для m, тот самый p является оригиналом p, и тот m = alpha + p * (1 - alpha - beta).Концептуально, для алгоритмов 4-9 точки (p_k, x[k]) интерполируются для получения решения (p, Q[i](p)).Каждый алгоритм отличается только алгоритмом для p_k.

Что касается последнего бита, R просто указывает, что использует S.

В оригинальной статье приводится список из 6 "желательных свойств для выборочного квантиля" функции и указывается предпочтение # 8, которое удовлетворяет всем на 1.#5 удовлетворяет их всех, но им это не нравится по другим причинам (оно скорее феноменологическое, чем вытекает из принципов).# 2 - это то, что сторонники статистики вроде меня сочли бы квантилями, и это то, что описано в википедии.

Кстати, в ответ на ответ дривза, Mathematica делает все существенно по-другому.Я думаю, что понимаю схему отображения.В то время как Mathematica проще для понимания, (а) проще прострелить себе ногу бессмысленными параметрами, и (б) она не может выполнить алгоритм R # 2.(Вот Страница квантилей Mathworld, в котором говорится, что Mathematica не может выполнить # 2, но дает более простое обобщение всех других алгоритмов в терминах четырех параметров.)

Другие советы

Существуют различные способы вычисления квантилей, когда вы задаете им вектор и не имеете известного CDF.

Рассмотрим вопрос о том, что делать, когда ваши наблюдения не попадают точно в квантили.

"Типы" просто определяют, как это сделать.Итак, в методах говорится: "используйте линейную интерполяцию между статистикой k-го порядка и p (k)".

Итак, что такое p(k)?Один парень говорит: "ну, мне нравится использовать k / n".Другой парень говорит: "Мне нравится использовать (k-1) / (n-1)" и т.д.Каждый из этих методов обладает различными свойствами, которые лучше подходят для решения той или иной проблемы.

Символы \alpha и \beta - это просто способы параметризации функций p.В одном случае это 1 и 1.В другом случае они равны 3/8 и -1/4.Я не думаю, что буквы p когда-либо были константой в документации.Они просто не всегда явно показывают зависимость.

Посмотрите, что происходит с различными типами, когда вы вводите векторы типа 1: 5 и 1: 6.

(также обратите внимание, что даже если ваши наблюдения попадают точно в квантили, некоторые типы все равно будут использовать линейную интерполяцию).

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow