機率概論 · Chapter I · Topic 4

由公理推出機率運算：餘事件、單調性與加法原理

Probability Rules from the Kolmogorov Axioms

Abstract. Kolmogorov 公理本身很短，卻能推出一整套機率運算規則。本文從虛無事件、有限可加性與餘事件公式開始，進一步整理單調性、加法原理、排容原理與常用機率不等式。

上一篇文章說明了不同情境下如何指定機率函數，也就是 $\mathbb{P}$ 的來源。一旦 $\mathbb{P}$ 被指定，並且滿足 Kolmogorov 公理，我們就可以不再依賴特定模型，而是直接從公理推出一系列共同成立的運算規則。

本文固定令 $(S,\mathcal{F},\mathbb{P})$ 為一個機率空間。除非特別說明，文中的事件皆是 $\mathcal{F}$ 中的事件。

第一個推論：虛無事件的機率

Kolmogorov 公理直接指定 $\mathbb{P}(S)=1$，但沒有直接指定虛無事件的機率。若以 $\varnothing$ 表示虛無事件，這件事可以由可數可加性推出。

Theorem 1.1

在任一機率空間 $(S,\mathcal{F},\mathbb{P})$ 中，虛無事件滿足

\[\mathbb{P}(\varnothing)=0\]

Proof. 令 $A_1$ 為整個樣本空間，且對所有 $i\geq 2$，令 $A_i$ 為虛無事件。則 $A_1,A_2,\ldots$ 兩兩互斥，且其聯集滿足

\[\bigcup_{i=1}^{\infty}A_i=S\]

由可數可加性可知

\[\mathbb{P}(S) =\mathbb{P}(S)+\sum_{i=2}^{\infty}\mathbb{P}(\varnothing)\]

因此 $\sum_{i=2}^{\infty}\mathbb{P}(\varnothing)=0$，也就是後面所有虛無事件機率的總和為零。再由非負性可得虛無事件的機率為 $0$，故得證。 $\square$

Note

$\mathbb{P}(\varnothing)=0$ 表示不可能事件的機率必為零。但反過來並不一定成立：機率為 $0$ 的事件未必是不可能事件。這正好呼應思想實驗 1.1中的飛鏢例子：在以面積指定機率的連續落點模型中，某個特定點可以是樣本空間中的可能結果；若這個單點集合被納入事件集合族，則它的面積為零，機率也為零。換句話說，不可能發生的事件機率必為零，但機率為零的事件未必不可能發生。

有限可加性

可數可加性可以處理可數多個兩兩互斥事件。若只討論有限多個互斥事件，它自然推出一個較常用的版本，稱為有限可加性。

Theorem 1.2

若 $A_1,\ldots,A_n\in\mathcal{F}$ 且兩兩互斥，則

\[\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^n\mathbb{P}(A_i)\]

此性質稱為有限可加性 (finite additivity)。

Proof. 對所有 $k>n$，令 $A_k$ 為虛無事件。則可數聯集等同於前 $n$ 個事件的聯集：

\[\bigcup_{i=1}^{\infty}A_i=\bigcup_{i=1}^{n}A_i\]

由可數可加性與 Theorem 1.1 可知

\[\mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right) =\sum_{i=1}^{n}\mathbb{P}(A_i)+\sum_{i=n+1}^{\infty}\mathbb{P}(\varnothing) =\sum_{i=1}^{n}\mathbb{P}(A_i)\]

因此有限可加性成立。 $\square$

有限可加性的重點在於「互斥」。若事件彼此沒有重疊，聯集的機率就可以直接相加；若事件之間有重疊，直接相加就會把重疊部分重複計算。

餘事件公式

對任意事件 $A$，其餘事件 $A^{\prime}$ 是所有不屬於 $A$ 的樣本點所形成的事件。因此 $A$ 與 $A^{\prime}$ 彼此互斥，且二者合起來正好是整個樣本空間：

\[S=A\cup A^{\prime}, \qquad A\cap A^{\prime}=\varnothing\]

餘事件 A prime 的集合示意圖：樣本空間 S 中，事件 A 外側的區域為 A prime。 — Fig. 1.1. 餘事件 $A^{\prime}$ 是樣本空間中不屬於 $A$ 的部分。

因此，有限可加性立刻給出餘事件公式。

Theorem 1.3

對任意事件 $A\in\mathcal{F}$，皆有

\[\mathbb{P}(A^{\prime})=1-\mathbb{P}(A)\]

同時也有

\[0\leq \mathbb{P}(A)\leq 1\]

Proof. 因為 $A$ 與 $A^{\prime}$ 互斥，且 $A\cup A^{\prime}=S$，所以

\[1=\mathbb{P}(S)=\mathbb{P}(A)+\mathbb{P}(A^{\prime})\]

故可得到餘事件公式。又由非負性可知 $\mathbb{P}(A)\geq 0$ 且 $\mathbb{P}(A^{\prime})\geq 0$，因此 $\mathbb{P}(A)\leq 1$，也就是事件機率至多為一。 $\square$

Example 1.6

若某製程中，一件產品不良的機率為 $0.03$，則產品合格的機率為

\[1-0.03=0.97\]

在許多問題中，直接計算目標事件不容易，但計算它的餘事件比較簡單。此時餘事件公式往往是最省力的做法。

單調性：較小的事件，機率不會較大

若 $A\subset B$，則事件 $A$ 發生時，事件 $B$ 一定發生。直觀上，$B$ 至少包含 $A$ 的所有可能結果，因此 $B$ 的機率不應小於 $A$ 的機率。

Theorem 1.4

若 $A,B\in\mathcal{F}$ 且 $A\subset B$，則

\[\mathbb{P}(B-A)=\mathbb{P}(B)-\mathbb{P}(A)\]

並且滿足

\[\mathbb{P}(A)\leq \mathbb{P}(B)\]

後者稱為機率的單調性 (monotonicity)。

單調性的集合示意圖：事件 A 包含於事件 B 中，B 比 A 多出的部分是差集 B-A。 — Fig. 1.2. 當 $A\subset B$ 時，$B$ 比 $A$ 多出的部分是 $B-A$，因此 $\mathbb{P}(A)\leq\mathbb{P}(B)$。

Proof. 因為 $A\subset B$，可將 $B$ 拆成兩個互斥部分：

\[B=A\cup (B-A)\]

由有限可加性可知

\[\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B-A)\]

故可得到差集公式。再由非負性可知 $\mathbb{P}(B-A)\geq 0$，因此 $\mathbb{P}(A)\leq\mathbb{P}(B)$，也就是機率的單調性。 $\square$

單調性的使用有一個重要前提：兩個事件必須能比較大小，也就是其中一個事件包含於另一個事件。若 $A$ 與 $B$ 沒有包含關係，單調性本身並不能直接比較它們各自的機率。

加法原理：扣除重複的部分

對兩個事件而言，最常用的運算是聯集。若我們想計算 $A\cup B$ 的機率，直覺上會把 $\mathbb{P}(A)$ 與 $\mathbb{P}(B)$ 相加；但若 $A$ 與 $B$ 有重疊，交集 $A\cap B$ 就會被加到兩次，因此需要扣回一次。

Theorem 1.5

若 $A,B\in\mathcal{F}$，則

\[\mathbb{P}(A\cup B) =\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)\]

此公式稱為加法原理 (addition rule)。

加法原理的集合示意圖：A union B 的機率等於 A 的機率加 B 的機率，再扣掉 A intersection B。 — Fig. 1.3. 加法原理的核心是先相加，再扣除被重複計算的交集。

Proof. 將 $A\cup B$ 拆成三個兩兩互斥的部分：

\[A\cup B=(A\cap B^{\prime})\cup(A\cap B)\cup(A^{\prime}\cap B)\]

由有限可加性可得

\[\mathbb{P}(A\cup B) =\mathbb{P}(A\cap B^{\prime})+\mathbb{P}(A\cap B)+\mathbb{P}(A^{\prime}\cap B)\]

另一方面，將 $A$ 與 $B$ 分別拆開可得

\[\mathbb{P}(A)=\mathbb{P}(A\cap B^{\prime})+\mathbb{P}(A\cap B)\]

同理可得

\[\mathbb{P}(B)=\mathbb{P}(A^{\prime}\cap B)+\mathbb{P}(A\cap B)\]

兩式相加後，交集 $\mathbb{P}(A\cap B)$ 被算了兩次，因此扣掉一次即可得到加法原理。 $\square$

若 $A$ 與 $B$ 互斥，則 $A\cap B=\varnothing$，所以加法原理退化為

\[\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)\]

這正是有限可加性在兩個事件上的情形。

Example 1.7

從一副標準撲克牌中隨機抽一張牌。令 $A$ 表示抽到紅心，$B$ 表示抽到 King。則

\[\mathbb{P}(A)=\frac{13}{52}, \qquad \mathbb{P}(B)=\frac{4}{52}, \qquad \mathbb{P}(A\cap B)=\frac{1}{52}\]

因此抽到「紅心或 King」的機率為

\[\mathbb{P}(A\cup B) =\frac{13}{52}+\frac{4}{52}-\frac{1}{52} =\frac{16}{52} =\frac{4}{13}\]

這裡的 $1/52$ 是紅心 King 被重複計算的部分。

三個事件與排容原理

加法原理可以推廣到三個以上的事件。以三個事件為例，先加上三個單一事件的機率，再扣掉兩兩交集，最後要把三者共同交集加回來：

\[\begin{aligned} \mathbb{P}(A\cup B\cup C) &=\mathbb{P}(A)+\mathbb{P}(B)+\mathbb{P}(C)\\[0.6em] &\quad-\mathbb{P}(A\cap B)-\mathbb{P}(A\cap C)-\mathbb{P}(B\cap C)\\[0.6em] &\quad+\mathbb{P}(A\cap B\cap C) \end{aligned}\]

三事件排容原理的集合示意圖：三個事件互相重疊時，中央共同交集會被多次計算。 — Fig. 1.4. 三事件排容中，兩兩交集先被扣除，而三者共同交集需要再加回來。

這個精神稱為排容原理 (inclusion-exclusion principle)：先把可能發生的部分都加進來，再逐步修正被重複計算的重疊部分。

Note

排容原理與排列組合中的排容原理是同一個想法，只是這裡計算的是機率而不是元素個數。若在有限均等可能的古典機率模型中，把兩邊同乘以 $\mathrm{n}(S)$，就會回到集合個數版本的排容原理。

常用不等式：Boole 與 Bonferroni

若交集機率不容易取得，加法原理未必能直接給出精確值。不過它仍然能推出有用的界限。

Theorem 1.6

若 $A_1,\ldots,A_n\in\mathcal{F}$，則

\[\mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right) \leq \sum_{i=1}^{n}\mathbb{P}(A_i)\]

此不等式稱為布爾不等式 (Boole’s inequality)。此外，還有下列常用形式，與原形式等價

\[\mathbb{P}\left(\bigcap_{i=1}^{n}A_i\right) \geq 1-\sum_{i=1}^{n}\mathbb{P}(A_i^{\prime})\]

此為邦佛洛尼不等式 (Bonferroni’s inequality) 的常用形式。

布爾不等式的集合示意圖：A union B 的機率不超過 A 的機率加 B 的機率。 — Fig. 1.5. 以兩事件為例，右側未扣除重疊部分，因此是上界而非精確值。

布爾不等式的直覺是：如果直接把所有 $\mathbb{P}(A_i)$ 相加，重疊部分沒有被扣掉，所以右邊通常會偏大。邦佛洛尼不等式則可看成從餘事件觀點得到的下界：若每個 $A_i$ 失敗的機率都不大，那麼全部 $A_i$ 同時成立的機率就不會太小。

本篇小結

本文把 Kolmogorov 公理推出的基本運算整理成一條線：

工具	公式	核心想法
虛無事件	$\mathbb{P}(\varnothing)=0$	不可能事件的機率為 $0$
有限可加性	$\mathbb{P}(\bigcup_i A_i)=\sum_i\mathbb{P}(A_i)$	互斥事件可以直接相加
餘事件公式	$\mathbb{P}(A^{\prime})=1-\mathbb{P}(A)$	全部扣掉 $A$
單調性	$A\subset B\Rightarrow \mathbb{P}(A)\leq\mathbb{P}(B)$	較小的事件，機率不會較大
加法原理	$\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)$	扣除重複
排容原理	加、扣、再加回	修正多重重疊

這些工具仍然是在同一個機率空間中運作。下一步，我們將開始討論「資訊進來以後」機率如何改變，也就是條件機率與乘法原理。