機率概論 · Chapter II · Topic 9

分位數、百分位數與中位數

Quantiles, Percentiles and Median

Abstract. 標準化描述個體離平均位置幾個標準差。分位數與百分位數則從 CDF 出發，找出使累積機率達到指定比例的位置。中位數是其中最常用的特例。

上一篇文章討論標準化與 z-score。z-score 處理的是單一觀察值相對於其所屬分配的位置，說明該觀察值離平均位置幾個標準差。

本篇改從整個分配來看位置。若想知道一個分配的下方四分之一、中央位置或上方四分之一落在哪裡，就需要使用分位數 (quantile)。若將比例改用百分比表示，便得到常見的百分位數 (percentile)。分位數不是先固定一個 $x$ 再求機率，而是先固定一個機率比例，再回頭找出對應的數線位置。

累積機率與分位數

累積分配函數定義為

\[F_X(x)=\mathbb{P}(X\leqslant x)\]

因此，$F_X(x)$ 說明的是「累積到 $x$ 為止」已有多少機率。分位數要描述的，是當累積比例被指定後，哪些數線位置可以把機率分成相應的左右兩側。給定一個比例 $p$，我們希望找出一個位置，使得左側累積機率至少達到 $p$，而右側機率也至少保留 $1-p$。

Definition 2.11

令 $0<p<1$。若實數 $q$ 滿足

\[\mathbb{P}(X\leqslant q)\geqslant p\]

且

\[\mathbb{P}(X\geqslant q)\geqslant 1-p\]

則稱 $q$ 為 $X$ 的 $p$ 分位數 ($p$-quantile)。

直覺校準 2.10

令 $X$ 的可能取值為 $0,1,4,5$，且各自機率皆為 $1/4$。若取 $p=1/2$，則任何 $q\in[1,4]$ 都滿足

\[\mathbb{P}(X\leqslant q)\geqslant \frac{1}{2}\]

且

\[\mathbb{P}(X\geqslant q)\geqslant \frac{1}{2}\]

因此，$[1,4]$ 中的每一個點都可作為 $1/2$ 分位數。特別地，$2$ 與 $3$ 並不是 $X$ 的可能取值，仍然可以是這個意義下的分位數。分位數描述的是把機率分在左右兩側的位置，不必然要求該位置本身是隨機變數實際可能取到的值。若採用下方的分位函數作為代表值，則此例會選到左端點 $x_{0.5}=1$。

由此可知，分位數未必唯一。為了指定一個明確的代表值，常採用分位函數

\[x_p=F_X^{-1}(p)=\inf\{x\in\mathbb{R}\mid F_X(x)\geqslant p\}\]

這裡的 $F_X^{-1}$ 稱為分位函數，並不是一般意義下必須一對一才存在的反函數。這個 $x_p$ 會選取第一個使 CDF 達到或超過 $p$ 的位置。若 $F_X$ 是連續且嚴格遞增的函數，則 $x_p$ 就是使

\[F_X(x)=p\]

成立的那個 $x$。若 $F_X$ 有平坦區段或跳躍，分位函數仍提供一個固定且明確的選取方式。

若比例寫成 $p=k/r$，則相應的位置也可稱為第 $k$ 個 $r$ 分位數，記作 $q_k$。四分位數、十分位數與百分位數都屬於這個說法的特例。

從 CDF 取得分位函數。先固定累積機率 p，再找出數線上的 x_p。 — Fig. 2.16. 分位函數是從 CDF 反向取得的位置。先固定累積機率 $p$，再找出第一個使 $F_X(x)\geqslant p$ 的位置 $x_p=F_X^{-1}(p)$。

Note

這裡討論的是分配本身的分位數。若手上只有一組樣本資料，則會牽涉到樣本分位數的估計方法。不同軟體對樣本分位數可能採用不同插值規則，這屬於統計計算上的問題，這裡先不處理。

分位數與百分位數

幾個分位數特別常用。若 $p=0.25$，則 $x_{0.25}$ 稱為第一四分位數，常記為 $Q_1$；若 $p=0.5$，則 $x_{0.5}$ 可作為中位數的一個明確代表，常記為 $Q_2$；若 $p=0.75$，則 $x_{0.75}$ 稱為第三四分位數，常記為 $Q_3$。若中位數唯一，則 $Q_2=\eta_X$。

名稱	記號	說明
第一四分位數	$Q_1=x_{0.25}$	累積機率達到四分之一的位置
中位數的一個代表	$Q_2=x_{0.5}$	第一個使累積機率達到二分之一的位置
第三四分位數	$Q_3=x_{0.75}$	累積機率達到四分之三的位置

同一個位置若以百分比表示，則稱為第 $100p$ 百分位數。例如 $x_{0.9}$ 可稱為第 $90$ 百分位數，也可記為 $P_{90}$。百分位數在解釋測驗成績、身高體重常模或大型資料摘要時很常見，因為它直接說明一個數值在整體分配中大約位於哪個比例位置。

臺灣國中會考與相關模擬測驗、升學落點討論中常見的 PR 值，指的是 percentile rank，中文常稱為百分等級。若某次數學測驗的成績為 $s$，且其 PR 值約為 $90$，意思是以同次測驗的考生作為參照群體時，約有九成考生的成績不高於 $s$。用本節的記號來看，若令 $X$ 表示該群考生成績，則 PR $90$ 對應到第 $90$ 百分位數附近，也就是 $s$ 約位於 $P_{90}=x_{0.9}$。

換句話說，百分位數是從比例回推數線位置；PR 值則是拿一個已知成績，回頭表示它在群體中的累積比例。實際成績通常是離散的，且同分人數可能很多，因此 PR 值會依考試單位採用的同分與取整規則計算。

同理，十分位數常記為 $D_k$，百分位數常記為 $P_r$。例如在唯一的情形下，$P_{50}=D_5=Q_2=\eta_X$。

Example 2.14 (Uniform Distribution)

令 $X$ 在 $(0,1)$ 上服從均勻分配。此時

\[F_X(x)=x, \qquad 0<x<1\]

因此，對任意 $0<p<1$，皆有

\[x_p=F_X^{-1}(p)=p\]

特別地，

\[Q_1=x_{0.25}=0.25, \qquad Q_2=x_{0.5}=0.5, \qquad Q_3=x_{0.75}=0.75\]

這個例子最單純。累積機率與位置本身相同，所以分位數也直接等於該比例。

中位數

中位數是最常見的中央趨勢量數之一。直觀上，中位數把分配切成左右兩半，使得至少一半的機率落在它左側，也至少一半的機率落在它右側。

Definition 2.12

若實數 $\eta_X$ 滿足

\[\mathbb{P}(X\leqslant \eta_X)\geqslant\frac{1}{2}\]

且

\[\mathbb{P}(X\geqslant \eta_X)\geqslant\frac{1}{2}\]

則稱 $\eta_X$ 為 $X$ 的中位數 (median)。

若中位數唯一，通常可直接寫作

\[\eta_X=x_{0.5}=F_X^{-1}(1/2)\]

不過，在離散型分配中，中位數未必唯一。此時 $x_{0.5}$ 是一個常用且明確的選擇，因為它選取第一個使累積機率達到 $1/2$ 的位置。

Example 2.15 (A Fair Die)

令 $X$ 表示投擲一顆公平骰子所得點數。則

\[\mathbb{P}(X=k)=\frac{1}{6}, \qquad k=1,2,\ldots,6\]

由 CDF 可得

\[Q_1=x_{0.25}=2, \qquad Q_2=x_{0.5}=3, \qquad Q_3=x_{0.75}=5\]

以 $p=0.5$ 為例，依分位函數定義可得

\[\{x\in\mathbb{R}\mid F_X(x)\geqslant 1/2\}=[3,\infty)\]

因此

\[x_{0.5}=\inf[3,\infty)=3\]

另一方面，若把 $[3,4]$ 之間的任何一個數代入中位數定義，都會得到

\[\mathbb{P}(X\leqslant \eta_X)\geqslant \frac{1}{2}, \qquad \mathbb{P}(X\geqslant \eta_X)\geqslant \frac{1}{2}\]

因此任何 $\eta_X\in[3,4]$ 都可視為中位數。由此可再次印證，分位數與中位數都可能面臨不唯一的情況，透過分位函數 $x_{0.5}$ 所找到的中位數只不過是「其中一個」而已。

中位數與平均數

中位數與期望值都可用來描述分配的中央趨勢，但兩者並不相同。期望值是依機率或機率密度權重計算出來的平均位置；中位數則只看累積機率何時達到一半。

直覺校準 2.11

令 $X$ 滿足

\[\mathbb{P}(X=0)=0.99, \qquad \mathbb{P}(X=1000)=0.01\]

則

\[\mathbb{E}(X)=0(0.99)+1000(0.01)=10\]

但其中位數為 $0$。原因是 $X=0$ 這個點已經累積了 $99\%$ 的機率，因此累積機率達到一半的位置早已在 $0$。

這個例子說明，平均數會受到少數很大的數值影響；中位數則更直接反映「有一半機率落在何處之前」。

本篇小結

給定 $0<p<1$，若 $q$ 使 $\mathbb{P}(X\leqslant q)\geqslant p$ 且 $\mathbb{P}(X\geqslant q)\geqslant 1-p$，則 $q$ 稱為 $X$ 的 $p$ 分位數。分位數可能不唯一，因此常用下列方式指定一個明確代表值。

\[x_p=F_X^{-1}(p)=\inf\{x\in\mathbb{R}\mid F_X(x)\geqslant p\}\]

中位數是最常用的分位數之一，常以 $\eta_X$ 表示。它描述分配的中央位置，但不一定等於期望值。期望值依機率權重作平均，中位數則依累積機率把分配切成兩半。

標準化把單一觀察值轉成離平均位置幾個標準差；分位數與百分位數則描述整個分配在不同累積比例下的位置。常用記號包括四分位數 $Q_1,Q_2,Q_3$、十分位數 $D_k$、百分位數 $P_r$ 與中位數 $\eta_X$。

第一四分位數與第三四分位數也會引出四分位距與盒鬚圖。不過，盒鬚圖主要用於整理樣本資料，屬於敘述統計的範圍。這裡先留作伏筆；日後討論敘述統計時，可再回頭比較機率分配中的分位數與樣本資料中的分位數。

下一篇文章將討論眾數與分配形狀。期望值、中位數與眾數都是中央趨勢量數，但它們對尾端或極端值的靈敏程度並不相同。

參考文獻與延伸閱讀

黃文璋，2003，《數理統計》，初版，華泰文化。
George Casella and Roger L. Berger. 2002. Statistical Inference. 2nd ed. Duxbury.
Sheldon M. Ross. 2019. A First Course in Probability. 10th ed. Pearson.
Patrick Billingsley. 1995. Probability and Measure. 3rd ed. Wiley.
Rob J. Hyndman and Yanan Fan. 1996. “Sample Quantiles in Statistical Packages.” The American Statistician 50 (4): 361–365.