由公理推出機率運算:餘事件、單調性與加法原理
Probability Rules from the Kolmogorov Axioms
上一篇文章說明了不同情境下如何指定機率函數,也就是 $\mathbb{P}$ 的來源。一旦 $\mathbb{P}$ 被指定,並且滿足 Kolmogorov 公理,我們就可以不再依賴特定模型,而是直接從公理推出一系列共同成立的運算規則。
本文固定令 $(S,\mathcal{F},\mathbb{P})$ 為一個機率空間。除非特別說明,文中的事件皆是 $\mathcal{F}$ 中的事件。
第一個推論:虛無事件的機率
Kolmogorov 公理直接指定 $\mathbb{P}(S)=1$,但沒有直接指定虛無事件的機率。若以 $\varnothing$ 表示虛無事件,這件事可以由可數可加性推出。
在任一機率空間 $(S,\mathcal{F},\mathbb{P})$ 中,虛無事件滿足
\[\mathbb{P}(\varnothing)=0\]Proof. 令 $A_1$ 為整個樣本空間,且對所有 $i\geq 2$,令 $A_i$ 為虛無事件。則 $A_1,A_2,\ldots$ 兩兩互斥,且其聯集滿足
\[\bigcup_{i=1}^{\infty}A_i=S\]由可數可加性可知
\[\mathbb{P}(S) =\mathbb{P}(S)+\sum_{i=2}^{\infty}\mathbb{P}(\varnothing)\]因此 $\sum_{i=2}^{\infty}\mathbb{P}(\varnothing)=0$,也就是後面所有虛無事件機率的總和為零。再由非負性可得虛無事件的機率為 $0$,故得證。 $\square$
$\mathbb{P}(\varnothing)=0$ 表示不可能事件的機率必為零。但反過來並不一定成立:機率為 $0$ 的事件未必是不可能事件。這正好呼應思想實驗 1.1中的飛鏢例子:在以面積指定機率的連續落點模型中,某個特定點可以是樣本空間中的可能結果;若這個單點集合被納入事件集合族,則它的面積為零,機率也為零。換句話說,不可能發生的事件機率必為零,但機率為零的事件未必不可能發生。
有限可加性
可數可加性可以處理可數多個兩兩互斥事件。若只討論有限多個互斥事件,它自然推出一個較常用的版本,稱為有限可加性。
若 $A_1,\ldots,A_n\in\mathcal{F}$ 且兩兩互斥,則
\[\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^n\mathbb{P}(A_i)\]此性質稱為有限可加性 (finite additivity)。
Proof. 對所有 $k>n$,令 $A_k$ 為虛無事件。則可數聯集等同於前 $n$ 個事件的聯集:
\[\bigcup_{i=1}^{\infty}A_i=\bigcup_{i=1}^{n}A_i\]由可數可加性與 Theorem 1.1 可知
\[\mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right) =\sum_{i=1}^{n}\mathbb{P}(A_i)+\sum_{i=n+1}^{\infty}\mathbb{P}(\varnothing) =\sum_{i=1}^{n}\mathbb{P}(A_i)\]因此有限可加性成立。 $\square$
有限可加性的重點在於「互斥」。若事件彼此沒有重疊,聯集的機率就可以直接相加;若事件之間有重疊,直接相加就會把重疊部分重複計算。
餘事件公式
對任意事件 $A$,其餘事件 $A^{\prime}$ 是所有不屬於 $A$ 的樣本點所形成的事件。因此 $A$ 與 $A^{\prime}$ 彼此互斥,且二者合起來正好是整個樣本空間:
\[S=A\cup A^{\prime}, \qquad A\cap A^{\prime}=\varnothing\]因此,有限可加性立刻給出餘事件公式。
對任意事件 $A\in\mathcal{F}$,皆有
\[\mathbb{P}(A^{\prime})=1-\mathbb{P}(A)\]同時也有
\[0\leq \mathbb{P}(A)\leq 1\]Proof. 因為 $A$ 與 $A^{\prime}$ 互斥,且 $A\cup A^{\prime}=S$,所以
\[1=\mathbb{P}(S)=\mathbb{P}(A)+\mathbb{P}(A^{\prime})\]故可得到餘事件公式。又由非負性可知 $\mathbb{P}(A)\geq 0$ 且 $\mathbb{P}(A^{\prime})\geq 0$,因此 $\mathbb{P}(A)\leq 1$,也就是事件機率至多為一。 $\square$
若某製程中,一件產品不良的機率為 $0.03$,則產品合格的機率為
\[1-0.03=0.97\]在許多問題中,直接計算目標事件不容易,但計算它的餘事件比較簡單。此時餘事件公式往往是最省力的做法。
單調性:較小的事件,機率不會較大
若 $A\subset B$,則事件 $A$ 發生時,事件 $B$ 一定發生。直觀上,$B$ 至少包含 $A$ 的所有可能結果,因此 $B$ 的機率不應小於 $A$ 的機率。
若 $A,B\in\mathcal{F}$ 且 $A\subset B$,則
\[\mathbb{P}(B-A)=\mathbb{P}(B)-\mathbb{P}(A)\]並且滿足
\[\mathbb{P}(A)\leq \mathbb{P}(B)\]後者稱為機率的單調性 (monotonicity)。
Proof. 因為 $A\subset B$,可將 $B$ 拆成兩個互斥部分:
\[B=A\cup (B-A)\]由有限可加性可知
\[\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B-A)\]故可得到差集公式。再由非負性可知 $\mathbb{P}(B-A)\geq 0$,因此 $\mathbb{P}(A)\leq\mathbb{P}(B)$,也就是機率的單調性。 $\square$
單調性的使用有一個重要前提:兩個事件必須能比較大小,也就是其中一個事件包含於另一個事件。若 $A$ 與 $B$ 沒有包含關係,單調性本身並不能直接比較它們各自的機率。
加法原理:扣除重複的部分
對兩個事件而言,最常用的運算是聯集。若我們想計算 $A\cup B$ 的機率,直覺上會把 $\mathbb{P}(A)$ 與 $\mathbb{P}(B)$ 相加;但若 $A$ 與 $B$ 有重疊,交集 $A\cap B$ 就會被加到兩次,因此需要扣回一次。
若 $A,B\in\mathcal{F}$,則
\[\mathbb{P}(A\cup B) =\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)\]此公式稱為加法原理 (addition rule)。
Proof. 將 $A\cup B$ 拆成三個兩兩互斥的部分:
\[A\cup B=(A\cap B^{\prime})\cup(A\cap B)\cup(A^{\prime}\cap B)\]由有限可加性可得
\[\mathbb{P}(A\cup B) =\mathbb{P}(A\cap B^{\prime})+\mathbb{P}(A\cap B)+\mathbb{P}(A^{\prime}\cap B)\]另一方面,將 $A$ 與 $B$ 分別拆開可得
\[\mathbb{P}(A)=\mathbb{P}(A\cap B^{\prime})+\mathbb{P}(A\cap B)\]同理可得
\[\mathbb{P}(B)=\mathbb{P}(A^{\prime}\cap B)+\mathbb{P}(A\cap B)\]兩式相加後,交集 $\mathbb{P}(A\cap B)$ 被算了兩次,因此扣掉一次即可得到加法原理。 $\square$
若 $A$ 與 $B$ 互斥,則 $A\cap B=\varnothing$,所以加法原理退化為
\[\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)\]這正是有限可加性在兩個事件上的情形。
從一副標準撲克牌中隨機抽一張牌。令 $A$ 表示抽到紅心,$B$ 表示抽到 King。則
\[\mathbb{P}(A)=\frac{13}{52}, \qquad \mathbb{P}(B)=\frac{4}{52}, \qquad \mathbb{P}(A\cap B)=\frac{1}{52}\]因此抽到「紅心或 King」的機率為
\[\mathbb{P}(A\cup B) =\frac{13}{52}+\frac{4}{52}-\frac{1}{52} =\frac{16}{52} =\frac{4}{13}\]這裡的 $1/52$ 是紅心 King 被重複計算的部分。
三個事件與排容原理
加法原理可以推廣到三個以上的事件。以三個事件為例,先加上三個單一事件的機率,再扣掉兩兩交集,最後要把三者共同交集加回來:
\[\begin{aligned} \mathbb{P}(A\cup B\cup C) &=\mathbb{P}(A)+\mathbb{P}(B)+\mathbb{P}(C)\\[0.6em] &\quad-\mathbb{P}(A\cap B)-\mathbb{P}(A\cap C)-\mathbb{P}(B\cap C)\\[0.6em] &\quad+\mathbb{P}(A\cap B\cap C) \end{aligned}\]這個精神稱為排容原理 (inclusion-exclusion principle):先把可能發生的部分都加進來,再逐步修正被重複計算的重疊部分。
排容原理與排列組合中的排容原理是同一個想法,只是這裡計算的是機率而不是元素個數。若在有限均等可能的古典機率模型中,把兩邊同乘以 $\mathrm{n}(S)$,就會回到集合個數版本的排容原理。
常用不等式:Boole 與 Bonferroni
若交集機率不容易取得,加法原理未必能直接給出精確值。不過它仍然能推出有用的界限。
若 $A_1,\ldots,A_n\in\mathcal{F}$,則
\[\mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right) \leq \sum_{i=1}^{n}\mathbb{P}(A_i)\]此不等式稱為布爾不等式 (Boole’s inequality)。此外,還有下列常用形式,與原形式等價
\[\mathbb{P}\left(\bigcap_{i=1}^{n}A_i\right) \geq 1-\sum_{i=1}^{n}\mathbb{P}(A_i^{\prime})\]此為邦佛洛尼不等式 (Bonferroni’s inequality) 的常用形式。
布爾不等式的直覺是:如果直接把所有 $\mathbb{P}(A_i)$ 相加,重疊部分沒有被扣掉,所以右邊通常會偏大。邦佛洛尼不等式則可看成從餘事件觀點得到的下界:若每個 $A_i$ 失敗的機率都不大,那麼全部 $A_i$ 同時成立的機率就不會太小。
本篇小結
本文把 Kolmogorov 公理推出的基本運算整理成一條線:
| 工具 | 公式 | 核心想法 |
|---|---|---|
| 虛無事件 | $\mathbb{P}(\varnothing)=0$ | 不可能事件的機率為 $0$ |
| 有限可加性 | $\mathbb{P}(\bigcup_i A_i)=\sum_i\mathbb{P}(A_i)$ | 互斥事件可以直接相加 |
| 餘事件公式 | $\mathbb{P}(A^{\prime})=1-\mathbb{P}(A)$ | 全部扣掉 $A$ |
| 單調性 | $A\subset B\Rightarrow \mathbb{P}(A)\leq\mathbb{P}(B)$ | 較小的事件,機率不會較大 |
| 加法原理 | $\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)$ | 扣除重複 |
| 排容原理 | 加、扣、再加回 | 修正多重重疊 |
這些工具仍然是在同一個機率空間中運作。下一步,我們將開始討論「資訊進來以後」機率如何改變,也就是條件機率與乘法原理。