Wei-Ann Lin · 林蔚安
機率概論 · Chapter II · Topic 3

離散型隨機變數與機率質量函數

Discrete Random Variables and Probability Mass Functions


Abstract. 離散型隨機變數的機率集中在有限或可數個取值上。PMF 記錄各單點機率,事件機率則由對應單點機率加總取得。

上一篇文章已經提過,有些隨機變數的機率是靠「加總」取得的。若隨機變數只會取到有限或可數無限多個值,則事件 ${X\leq x}$ 的機率,就是把不超過 $x$ 的那些單點機率加起來。

本篇細講這個加總如何被整理成一個函數。這個函數稱為機率質量函數 (probability mass function, PMF)。它把離散型隨機變數每一個可能取值上的機率列出來,使許多事件機率都能轉化為加總問題。

離散型隨機變數

令 $X$ 為一個隨機變數。若 $X$ 的可能取值集合為有限集合或可數無限集合,則稱 $X$ 為離散型隨機變數 (discrete random variable)。這個可能取值集合記為

\[\mathcal{R}_X=\{X(\omega)\mid \omega\in S\}\]

此集合也常稱為 $X$ 的值域 (range)支撐集 (support)。這裡的值域與一般數學中函數的值域並無差異,因為隨機變數本來就是定義在樣本空間上的函數。不同之處在於,機率論會進一步在這些可能取值上指定機率。

在離散型的情形中,$\mathcal{R}_X$ 可以逐一列出,例如

\[\mathcal{R}_X=\{0,1\},\qquad \mathcal{R}_X=\{1,2,3,4,5,6\},\qquad \mathcal{R}_X=\{0,1,2,\ldots\}\]

只要可能取值可以逐項列出,機率就可以逐項相加。

Definition 2.3

令 $X$ 為離散型隨機變數,其可能取值集合為 $\mathcal{R}_X$。定義

\[p_X(x)=\mathbb{P}(X=x),\qquad x\in\mathcal{R}_X\]

並令 $p_X(x)=0$,若 $x\notin\mathcal{R}_X$。若 $p_X$ 滿足

\[p_X(x)\geq 0,\qquad x\in\mathcal{R}_X\]

\[\sum_{x\in\mathcal{R}_X}p_X(x)=1\]

則稱 $p_X$ 為 $X$ 的機率質量函數 (probability mass function, PMF)

這裡的 $\mathbb{P}(X=x)$ 是簡寫。完整而言,它指的是事件

\[\{X=x\}=\{\omega\in S\mid X(\omega)=x\}\]

的機率。換言之,PMF 的每一個函數值都是一個事件機率。

Note

PMF 之所以稱為「機率質量函數」,是因為離散型隨機變數的機率集中在一個一個單點上。每個可能取值像是一個質點,$p_X(x)$ 則記錄該點具有多少機率質量。

由 PMF 計算事件機率

PMF 不只記錄單點機率,也足以計算所有由 $X$ 所決定的事件機率。若 $A\subset\mathbb{R}$,則

\[\mathbb{P}(X\in A) = \sum_{x\in A\cap\mathcal{R}_X}p_X(x)\]

這個公式表示,若要計算 $X$ 落在某個集合 $A$ 中的機率,只要找出 $\mathcal{R}_X$ 中同時落在 $A$ 裡的那些點,再把它們的 PMF 值相加。

特別地,若 $A=(-\infty,x]$,則對任意實數 $x$,可得

\[F_X(x) = \mathbb{P}(X\leq x) = \sum_{t\leq x}p_X(t)\]

這正是前一篇提到的離散型 CDF。CDF 是把門檻左側的機率質量逐步累積起來。

Example 2.2 (Two Balls without Replacement)

箱中有四顆大小形狀完全相同、分別編號 $0,1,2,3$ 的球。從中一次抽取兩顆球,不考慮抽取順序,令 $X$ 表示兩顆球的號碼總和。

此時樣本空間可寫為

\[S=\{(0,1),(0,2),(0,3),(1,2),(1,3),(2,3)\}\]

六個結果均等可能。依序計算號碼總和可得

$x$12345
$p_X(x)$$1/6$$1/6$$2/6$$1/6$$1/6$

因此 $X$ 的 PMF 可寫為

\[p_X(x)= \left\{ \begin{array}{c@{\quad}l} 1/6, & x=1,2,4,5,\\[0.35em] 1/3, & x=3,\\[0.35em] 0, & \text{otherwise} \end{array} \right.\]

若要求號碼總和為 $3$ 的機率,由 PMF 表可得

\[\mathbb{P}(X=3)=p_X(3)=\frac{1}{3}\]

若要求號碼總和不超過 $3$ 的機率,則把 $x=1,2,3$ 的機率相加,此即

\[F_X(3) = \mathbb{P}(X\leq 3) = p_X(1)+p_X(2)+p_X(3) = \frac{1}{6}+\frac{1}{6}+\frac{1}{3} = \frac{2}{3}\]
直覺校準 2.3

在離散型隨機變數中,區間端點是否包含可能改變機率。以上例而言,若不包含左端點 $1$,則

\[\mathbb{P}(1<X\leq 3)=p_X(2)+p_X(3)=\frac{1}{2}\]

但若我們加入 $1$ 這個單點,則有

\[\mathbb{P}(1\leq X\leq 3)=p_X(1)+p_X(2)+p_X(3)=\frac{2}{3}\]

差異正是左端點 $x=1$ 上的單點機率 $p_X(1)=1/6$。這一點和連續型隨機變數很不一樣。

PMF 的基本性質

PMF 有兩個基本要求。每個單點機率不可為負,所有可能取值上的機率總和必須為 $1$。反過來,若一個函數滿足這兩個條件,便可作為某個離散型隨機變數的 PMF。

Proposition 2.2 (PMF Conditions)

令 $\mathcal{R}_X$ 為有限或可數無限集合。若函數 $p_X:\mathcal{R}_X\to\mathbb{R}$ 滿足

\[p_X(x)\geq 0,\qquad x\in\mathcal{R}_X\]

\[\sum_{x\in\mathcal{R}_X}p_X(x)=1\]

則 $p_X$ 可作為某個離散型隨機變數 $X$ 在 $\mathcal{R}_X$ 上的 PMF。

Example 2.3 (A Geometric Tail)

\[p_X(x)= \left\{ \begin{array}{c@{\quad}l} c\left(\frac{1}{2}\right)^x, & x=1,2,\ldots,\\[0.35em] 0, & \text{otherwise} \end{array} \right.\]

其中 $c$ 為常數。若 $p_X$ 是 PMF,則其總和必須為 $1$。

\[1 = \sum_{x=1}^{\infty}c\left(\frac{1}{2}\right)^x = c\sum_{x=1}^{\infty}\left(\frac{1}{2}\right)^x = c\]

故 $c=1$。由此可計算任意 $x$ 的機率,例如

\[\mathbb{P}(X=5)=p_X(5)=\left(\frac{1}{2}\right)^5=\frac{1}{32}\]

由 CDF 求得 PMF

PMF 可以加總成 CDF;反過來,離散型隨機變數的 PMF 也可以由 CDF 的跳躍高度求得。這是離散型隨機變數的基本特徵。

未免符號混淆,先將 $F_X$ 在 $a$ 左側的極限記為

\[F_X(a^-)=\lim_{x\uparrow a}F_X(x)\]

若 $X$ 為離散型隨機變數,則有下列關係。

Proposition 2.3 (PMF from CDF Jumps)

對任意 $a\in\mathbb{R}$,皆有

\[p_X(a) = \mathbb{P}(X=a) = F_X(a)-F_X(a^-)\]

由集合關係可知,事件 ${X\leq a}$ 比事件 ${X<a}$ 多出的部分,正是事件 ${X=a}$。因此 CDF 在 $a$ 的跳躍高度,就是 $X=a$ 的單點機率。

離散型 CDF 在 a 點的跳躍。空心點表示左側極限,實心點表示函數值,兩者高度差為單點機率。
Fig. 2.8. 在跳躍點 $a$ 上,空心點表示 $F_X(a^-)$,實心點表示 $F_X(a)$。兩者的高度差正是 $p_X(a)=\mathbb{P}(X=a)$。

若 $a$ 不是 $X$ 的可能取值,則 $p_X(a)=0$,此時 CDF 在 $a$ 不會跳躍。換言之,若 $F_X(a)=F_X(a^-)$,左右高度沒有差距,該點就沒有單點機率。若 $a$ 是 $X$ 的可能取值,跳躍高度便等於該點的機率質量。

以 Example 2.2 為例,$x=3$ 的機率質量為 $1/3$。因此 CDF 在 $3$ 的跳躍高度也是 $1/3$。

\[F_X(3)-F_X(3^-)=p_X(3)=\frac{1}{3}\]

這個關係也說明,離散型的 CDF 與 PMF 相互決定。只要知道 PMF,就能加總得到 CDF;只要知道 CDF 的每個跳躍高度,也能求得 PMF。

若想親手調整單點機率並觀察 CDF 的跳躍,可以參考互動展示 From PMF to CDF

本篇小結

離散型隨機變數的可能取值可以逐一列出,機率也集中在這些單點上。PMF 記錄每個可能取值的單點機率,可寫為

\[p_X(x)=\mathbb{P}(X=x)\]

事件機率則由對應單點機率相加得到。

\[\mathbb{P}(X\in A) = \sum_{x\in A\cap\mathcal{R}_X}p_X(x)\]

CDF 可由 PMF 加總得到。

\[F_X(x)=\sum_{t\leq x}p_X(t)\]

PMF 則可由 CDF 的跳躍高度求得。

\[p_X(a)=F_X(a)-F_X(a^-)\]

下一篇連續型隨機變數與機率密度函數會轉向連續型隨機變數。當單點不再具有正機率時,機率不再逐點相加,而要改由密度函數在區間上的面積來計算。

參考文獻與延伸閱讀

  • Patrick Billingsley, Probability and Measure, 3rd ed., Wiley, 1995, chapters on random variables and distribution functions.
  • William Feller, An Introduction to Probability Theory and Its Applications, Volume I, 3rd ed., Wiley, 1968, chapters on discrete distributions.
  • George Casella and Roger L. Berger, Statistical Inference, 2nd ed., Duxbury, 2002, sections on discrete random variables and probability mass functions.
  • Sheldon M. Ross, A First Course in Probability, 10th ed., Pearson, 2019, chapters on discrete random variables.
  • Joseph K. Blitzstein and Jessica Hwang, Introduction to Probability, 2nd ed., CRC Press, 2019, chapters on PMFs and CDFs.