解释 R 中的 quantile() 函数

https://stackoverflow.com/questions/95007

01-07-2019
|

题

我一整天都对 R 分位数函数感到困惑。

我对分位数的工作原理有一个直观的概念，并且拥有硕士学位。在统计数据中，但是天哪，它的文档让我感到困惑。

来自文档：

q [i]（p）=（1 -gamma）x [j] +伽马X [J + 1]，

到目前为止我还是同意的。对于一个类型我分位数，它是 x[j] 和 x [j+1] 之间的插值，基于一些神秘常数伽玛

其中1 <= i <= 9，（jm）/ n <= p <（j-m+1）/ n，x [j]是jth阶统计，n为样本量，m是确定的常数按样品分位类型。这里伽马取决于g = np+mj的分数部分。

那么，如何计算j呢？米？

对于连续样品分位类型（4至9），可以通过在KTH顺序统计和P（K）之间进行线性插值获得样品分位数：

p（k）=（k -alpha） /（n -alpha -beta + 1），其中α和β是由类型确定的常数。此外，m = alpha + p（1 -alpha -beta）和γ= g。

现在我真的迷失了。p 以前是一个常数，现在显然是一个函数。

因此，对于类型 7 分位数，默认...

7型

p(k) = (k - 1) / (n - 1)。在这种情况下，p(k) = mode[F(x[k])]。这个是S用的。

有人想帮我吗？特别是我对 p 作为函数和常数的表示法感到困惑，到底是什么米是，现在计算某些特定的 j p.

我希望根据这里的答案，我们可以提交一些修订后的文档，以更好地解释这里发生的事情。

分位数.R 源代码或输入：分位数.默认值

解决方案

你很困惑，这是可以理解的。该文档太糟糕了。我不得不回到它基于的论文（Hyndman，R.J.；范，Y.（1996 年 11 月）。“统计包中的样本分位数”。 美国统计学家 50 (4): 361–365. 号码：10.2307/2684934）以获得理解。我们先从第一个问题开始。

其中 1 <= i <= 9，(j-m)/n <= p < (j-m+1)/ n，x[j] 是第 j 阶统计量，n 是样本大小，m 是确定的常数按样本分位数类型。这里 gamma 取决于 g = np+m-j 的小数部分。

第一部分直接来自论文，但文档作者忽略的是 j = int(pn+m). 。这意味着 Q[i](p) 仅取决于最接近的两个阶统计量 p 通过（排序的）观察结果的一小部分。（对于像我这样不熟悉这个术语的人来说，一系列观察的“顺序统计”是排序后的系列。）

而且，最后一句话是错误的。它应该读

这里 gamma 取决于 np+m 的小数部分，g = np+m-j

至于 m 这很简单。 m 取决于选择了 9 种算法中的哪一种。所以就像 Q[i] 是分位数函数， m 应该被考虑 m[i]. 。对于算法1和2， m 为 0，为 3， m 是-1/2，对于其他的，这在下一部分中。

对于连续样本分位数类型（4 到 9），可以通过第 k 阶统计量和 p(k) 之间的线性插值来获得样本分位数：

p(k) = (k - alpha) / (n - alpha - beta + 1)，其中 α 和 β 是由类型确定的常数。此外，m = alpha + p(1 - alpha - beta)，且 gamma = g。

这确实令人困惑。文档中的名称是什么 p(k) 不一样 p 从以前。 p(k) 是个绘图位置. 。在论文中，作者将其写为 p_k, ，这有帮助。特别是因为在表达式中 m, ，这 p 是原来的 p, ，以及 m = alpha + p * (1 - alpha - beta). 。从概念上讲，对于算法 4-9，点 (p_k, x[k]) 进行插值以获得解 (p, Q[i](p)）。每种算法仅在算法上有所不同 p_k.

至于最后一位，R 只是说明 S 使用的内容。

原始论文给出了 6 个“样本分位数的理想属性”函数的列表，并指出了对 #8 的偏好，它满足所有 1。#5 满足了他们所有人的要求，但他们在其他方面不喜欢它（它更多的是现象学而不是从原理推导出来的）。#2 是像我这样的非统计极客会考虑的分位数，也是维基百科中描述的内容。

顺便说一句，响应德里夫斯回答, Mathematica 的做法截然不同。我想我理解了映射。虽然 Mathematica 更容易理解，但 (a) 使用无意义的参数更容易搬起石头砸自己的脚，(b) 它无法执行 R 的算法 #2。（这里是 Mathworld 的分位数页面, ，其中指出 Mathematica 无法执行#2，但根据四个参数给出了所有其他算法的更简单的概括。）

其他提示

当你给它一个向量并且没有已知的 CDF 时，有多种计算分位数的方法。

考虑一下当您的观察结果不完全落在分位数上时该怎么办的问题。

“类型”只是决定如何做到这一点。因此，这些方法说“在 k 阶统计量和 p(k) 之间使用线性插值”。

那么，p(k) 是什么？一个人说，“好吧，我喜欢使用 k/n”。另一个人说，“我喜欢使用 (k-1)/(n-1)”等。这些方法中的每一种都具有不同的属性，更适合某个问题或另一个问题。

α 和 β 只是参数化函数 p 的方法。在一种情况下，它们是 1 和 1。在另一种情况下，它们是 3/8 和 -1/4。我不认为 p 在文档中是常量。他们只是并不总是明确地显示依赖性。

看看当您输入 1:5 和 1:6 等向量时，不同类型会发生什么情况。

（另请注意，即使您的观察结果恰好落在分位数上，某些类型仍将使用线性插值）。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow