我一整天都对 R 分位数函数感到困惑。

我对分位数的工作原理有一个直观的概念,并且拥有硕士学位。在统计数据中,但是天哪,它的文档让我感到困惑。

来自文档:

q [i](p)=(1 -gamma)x [j] +伽马X [J + 1],

到目前为止我还是同意的。对于一个类型 分位数,它是 x[j] 和 x [j+1] 之间的插值,基于一些神秘常数 伽玛

其中1 <= i <= 9,(jm)/ n <= p <(j-m+1)/ n,x [j]是jth阶统计,n为样本量,m是确定的常数按样品分位类型。这里伽马取决于g = np+mj的分数部分。

那么,如何计算j呢?米?

对于连续样品分位类型(4至9),可以通过在KTH顺序统计和P(K)之间进行线性插值获得样品分位数:

p(k)=(k -alpha) /(n -alpha -beta + 1),其中α和β是由类型确定的常数。此外,m = alpha + p(1 -alpha -beta)和γ= g。

现在我真的迷失了。p 以前是一个常数,现在显然是一个函数。

因此,对于类型 7 分位数,默认...

7型

p(k) = (k - 1) / (n - 1)。在这种情况下,p(k) = mode[F(x[k])]。这个是S用的。

有人想帮我吗?特别是我对 p 作为函数和常数的表示法感到困惑,到底是什么 是,现在计算某些特定的 j p.

我希望根据这里的答案,我们可以提交一些修订后的文档,以更好地解释这里发生的事情。

分位数.R 源代码或输入:分位数.默认值

有帮助吗?

解决方案

你很困惑,这是可以理解的。该文档太糟糕了。我不得不回到它基于的论文(Hyndman,R.J.;范,Y.(1996 年 11 月)。“统计包中的样本分位数”。 美国统计学家 50 (4): 361–365. 号码:10.2307/2684934)以获得理解。我们先从第一个问题开始。

其中 1 <= i <= 9,(j-m)/n <= p < (j-m+1)/ n,x[j] 是第 j 阶统计量,n 是样本大小,m 是确定的常数按样本分位数类型。这里 gamma 取决于 g = np+m-j 的小数部分。

第一部分直接来自论文,但文档作者忽略的是 j = int(pn+m). 。这意味着 Q[i](p) 仅取决于最接近的两个阶统计量 p 通过(排序的)观察结果的一小部分。(对于像我这样不熟悉这个术语的人来说,一系列观察的“顺序统计”是排序后的系列。)

而且,最后一句话是错误的。它应该读

这里 gamma 取决于 np+m 的小数部分,g = np+m-j

至于 m 这很简单。 m 取决于选择了 9 种算法中的哪一种。所以就像 Q[i] 是分位数函数, m 应该被考虑 m[i]. 。对于算法1和2, m 为 0,为 3, m 是-1/2,对于其他的,这在下一部分中。

对于连续样本分位数类型(4 到 9),可以通过第 k 阶统计量和 p(k) 之间的线性插值来获得样本分位数:

p(k) = (k - alpha) / (n - alpha - beta + 1),其中 α 和 β 是由类型确定的常数。此外,m = alpha + p(1 - alpha - beta),且 gamma = g。

这确实令人困惑。文档中的名称是什么 p(k) 不一样 p 从以前。 p(k) 是个 绘图位置. 。在论文中,作者将其写为 pk, ,这有帮助。特别是因为在表达式中 m, , 这 p 是原来的 p, ,以及 m = alpha + p * (1 - alpha - beta). 。从概念上讲,对于算法 4-9,点 (pk, x[k]) 进行插值以获得解 (p, Q[i](p))。每种算法仅在算法上有所不同 pk.

至于最后一位,R 只是说明 S 使用的内容。

原始论文给出了 6 个“样本分位数的理想属性”函数的列表,并指出了对 #8 的偏好,它满足所有 1。#5 满足了他们所有人的要求,但他们在其他方面不喜欢它(它更多的是现象学而不是从原理推导出来的)。#2 是像我这样的非统计极客会考虑的分位数,也是维基百科中描述的内容。

顺便说一句,响应 德里夫斯回答, Mathematica 的做法截然不同。我想我理解了映射。虽然 Mathematica 更容易理解,但 (a) 使用无意义的参数更容易搬起石头砸自己的脚,(b) 它无法执行 R 的算法 #2。(这里是 Mathworld 的分位数页面, ,其中指出 Mathematica 无法执行#2,但根据四个参数给出了所有其他算法的更简单的概括。)

其他提示

当你给它一个向量并且没有已知的 CDF 时,有多种计算分位数的方法。

考虑一下当您的观察结果不完全落在分位数上时该怎么办的问题。

“类型”只是决定如何做到这一点。因此,这些方法说“在 k 阶统计量和 p(k) 之间使用线性插值”。

那么,p(k) 是什么?一个人说,“好吧,我喜欢使用 k/n”。另一个人说,“我喜欢使用 (k-1)/(n-1)”等。这些方法中的每一种都具有不同的属性,更适合某个问题或另一个问题。

α 和 β 只是参数化函数 p 的方法。在一种情况下,它们是 1 和 1。在另一种情况下,它们是 3/8 和 -1/4。我不认为 p 在文档中是常量。他们只是并不总是明确地显示依赖性。

看看当您输入 1:5 和 1:6 等向量时,不同类型会发生什么情况。

(另请注意,即使您的观察结果恰好落在分位数上,某些类型仍将使用线性插值)。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top