Wei-Ann Lin · 林蔚安
機率概論 · Chapter I · Topic 5

條件機率:資訊進來以後,機率如何改變

Conditional Probability and the Multiplication Rule


Abstract. 條件機率描述的是:在已知某個事件已經發生之後,我們如何重新評估另一個事件的機率。本文從資訊的意義出發,介紹條件機率、乘法原理與廣義乘法原理。

上一篇文章整理了在同一個機率空間中可以使用的基本運算規則。那些規則告訴我們,一旦機率空間 $(S,\mathcal{F},\mathbb{P})$ 被指定以後,事件之間的聯集、交集、餘事件與大小關係便能轉化為機率運算。

但機率與統計更常處理的是「資訊的變化」。原本我們站在整個樣本空間中評估某事件的機率;一旦知道某個事件 $B$ 已經發生,原先的樣本空間便被縮小成 $B$ 所代表的世界,我們也必須在其中重新評估問題。條件機率 (conditional probability) 要描述的正是這件事:資訊進來以後,機率如何改變。

本文固定令 $(S,\mathcal{F},\mathbb{P})$ 為一個機率空間。除非特別說明,文中的事件皆是 $\mathcal{F}$ 中的事件。

資訊會改變我們看的世界

先不要急著看公式。假設擲一顆公正骰子,令 $A$ 表示「點數至少為 $4$」,也就是 $A={4,5,6}$。在沒有其他資訊時,樣本空間是 ${1,2,3,4,5,6}$,因此

\[\mathbb{P}(A)=\frac{3}{6}=\frac{1}{2}\]

現在加入一個資訊:點數是偶數。也就是說,我們知道事件 $B$ 發生,其中

\[B=\{2,4,6\}\]

此時我們已經不該再把 $1,3,5$ 放進討論裡;真正要看的,是 $B$ 裡面有多少結果也屬於 $A$。

思想實驗 1.2

「點數至少為 $4$」這個事件本身沒有改變;改變的是我們知道了「點數是偶數」這件資訊。資訊的作用不是改寫事件,而是改寫我們應該在哪個世界裡判斷事件。

在這個例子中,$A\cap B={4,6}$。所以在已知 $B$ 發生之下,$A$ 發生的機率應為

\[\frac{\mathrm{n}(A\cap B)}{\mathrm{n}(B)} =\frac{2}{3}\]

這個比例就是條件機率的原型:把「同時屬於 $A$ 與 $B$ 的部分」拿來和「已知會發生的 $B$」相比。

條件機率

Definition 1.13

令 $A,B\in\mathcal{F}$,且 $\mathbb{P}(B)>0$。則在給定 $B$ 發生之下,$A$ 發生的條件機率 (conditional probability) 定義為

\[\mathbb{P}(A\mid B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}\]

這個定義的分子是 $A$ 與 $B$ 同時發生的機率;分母則是我們已經知道會發生的事件 $B$ 的機率。因此 $\mathbb{P}(A\mid B)$ 可以理解為:在 $B$ 所代表的新世界裡,$A$ 佔了多少比例。

條件機率的集合示意圖:已知 B 發生後,以 B 作為新的參照區域,A 只剩下 A cap B 的部分會被計入。
Fig. 1.6. 給定 $B$ 發生後,參照範圍縮小為 $B$;此時 $A$ 真正留下來的是 $A\cap B$。

這也說明為什麼必須要求 $\mathbb{P}(B)>0$。如果 $B$ 在目前模型下機率為零,我們就無法用 $\mathbb{P}(B)$ 作為分母,把 $B$ 正規化成新的參照世界。這不只是代數上的除以零問題,也是「目前這個機率模型不足以直接回答給定 $B$ 之後如何重新分配機率」的問題。

Note

一般的非條件機率也可以看成一種條件機率。因為整個樣本空間 $S$ 必然發生,且 $\mathbb{P}(S)=1$,所以

\[\mathbb{P}(A\mid S)=\frac{\mathbb{P}(A\cap S)}{\mathbb{P}(S)}=\mathbb{P}(A)\]

因此,非條件機率是在沒有額外資訊時,以整個 $S$ 作為參照世界;條件機率則是在資訊進來後,以某個已知發生的事件作為參照世界。

條件機率仍然是機率

條件機率不是一個全新的規則,而是在新的參照世界中重新定義出的機率。更精確地說,只要固定給定事件 $B$,那麼

\[A\longmapsto \mathbb{P}(A\mid B)\]

本身仍然是一個機率測度。

Theorem 1.7 (Conditional Probability Measure)

令 $B\in\mathcal{F}$,且 $\mathbb{P}(B)>0$。則 $\mathbb{P}(\,\cdot\,\mid B)$ 為一個機率測度。

Proof. 對任意 $A\in\mathcal{F}$,因為 $\mathbb{P}(A\cap B)\geq 0$ 且 $\mathbb{P}(B)>0$,所以

\[\mathbb{P}(A\mid B)\geq 0\]

此外,樣本空間本身滿足

\[\mathbb{P}(S\mid B) =\frac{\mathbb{P}(S\cap B)}{\mathbb{P}(B)} =\frac{\mathbb{P}(B)}{\mathbb{P}(B)} =1\]

最後,若 $A_1,A_2,\ldots$ 兩兩互斥,則 $A_1\cap B,A_2\cap B,\ldots$ 也兩兩互斥。因此

\[\begin{aligned} \mathbb{P}\left(\bigcup_{i=1}^{\infty}A_i\,\middle|\,B\right) &=\frac{\mathbb{P}\left(\left(\bigcup_{i=1}^{\infty}A_i\right)\cap B\right)}{\mathbb{P}(B)}\\[0.45em] &=\frac{\mathbb{P}\left(\bigcup_{i=1}^{\infty}(A_i\cap B)\right)}{\mathbb{P}(B)}\\[0.45em] &=\frac{\sum_{i=1}^{\infty}\mathbb{P}(A_i\cap B)}{\mathbb{P}(B)}\\[0.45em] &=\sum_{i=1}^{\infty}\frac{\mathbb{P}(A_i\cap B)}{\mathbb{P}(B)} =\sum_{i=1}^{\infty}\mathbb{P}(A_i\mid B) \end{aligned}\]

故 $\mathbb{P}(\,\cdot\,\mid B)$ 滿足機率三大公理。 $\square$

這個定理的教學意義很重要:只要條件固定,前面學過的機率規則仍然可以使用。真正需要小心的是,不同條件代表不同參照世界;若一個式子裡的條件改來改去,就不能把它們當成同一個機率空間裡的普通機率直接相加或比較。

思想實驗 1.3

固定給定事件 $B$。在 $B$ 這個參照世界裡,事件 $A$ 發生與事件 $A^{\prime}$ 發生仍然是互補的兩種情況,所以

\[\mathbb{P}(A\mid B)+\mathbb{P}(A^{\prime}\mid B)=1\]

那麼下面這個式子呢?

\[\mathbb{P}(A\mid B)+\mathbb{P}(A\mid B^{\prime})\]

它也會等於 $1$ 嗎?答案通常是否定的。第一項是在 $B$ 的世界裡看 $A$,第二項是在 $B^{\prime}$ 的世界裡看 $A$;兩者的條件不同,參照世界也不同。我有時會戲稱這是「張飛打岳飛問題」:看起來都在談 $A$,但其實時空錯置,條件根本對不上。條件對不上時,就不能套用餘事件公式把兩項湊成 $1$。

乘法原理

條件機率的定義可以直接移項,得到交集機率的一個常用表示法。

Theorem 1.8 (Multiplication Rule)

令 $A,B\in\mathcal{F}$,且 $\mathbb{P}(B)>0$。則

\[\mathbb{P}(A\cap B)=\mathbb{P}(A\mid B)\,\mathbb{P}(B)\]

此性質稱為乘法原理 (multiplication rule)。若 $\mathbb{P}(A)>0$,同理也有

\[\mathbb{P}(A\cap B)=\mathbb{P}(B\mid A)\,\mathbb{P}(A)\]

乘法原理的用途是:當交集機率不好直接算,但條件機率容易描述時,我們可以先算「第一個事件發生的機率」,再乘上「在第一個事件已經發生之下,第二個事件發生的機率」。

Example 1.8 (Two Cards without Replacement)

自一副 $52$ 張撲克牌中連續抽兩張牌,取後不放回。令 $N_1$ 表示第一張不是 King,$N_2$ 表示第二張不是 King。若要求兩張都不是 King 的機率,則

\[\mathbb{P}(N_1\cap N_2) =\mathbb{P}(N_1)\,\mathbb{P}(N_2\mid N_1) =\frac{48}{52}\cdot\frac{47}{51}\]

第一個分數是在整副牌中沒有抽到 King 的機率;第二個分數則是在第一張已經不是 King 之後,剩下 $51$ 張牌中還有 $47$ 張不是 King 的條件機率。

這個例子顯示,條件機率經常讓「有順序的隨機過程」變得自然。若事件的發生會改變下一步的狀態,例如不放回抽樣、疾病檢驗後的判斷、或逐步篩選樣本,乘法原理通常比直接列舉整個樣本空間更容易使用。

廣義乘法原理

若條件不只一層,乘法原理可以一路推廣。直覺上,我們先計算第一步的機率,再依序乘上每一步在前面資訊已經發生下的條件機率。

Theorem 1.9 (General Multiplication Rule)

令 $A_1,\ldots,A_n\in\mathcal{F}$。若對每個 $k=1,\ldots,n-1$,前 $k$ 個事件的交集皆有正機率,則

\[\mathbb{P}\left(\bigcap_{i=1}^{n}A_i\right) =\mathbb{P}(A_1)\prod_{k=2}^{n} \mathbb{P}\left(A_k\,\middle|\,\bigcap_{i=1}^{k-1}A_i\right)\]

此性質稱為廣義乘法原理 (general multiplication rule)

Example 1.9 (No Kings in Five Cards)

自一副 $52$ 張撲克牌中抽取五張牌,取後不放回,求其中沒有任何 King 的機率。令 $N_i$ 表示第 $i$ 張牌不是 King,則

\[\begin{aligned} \mathbb{P}\left(\bigcap_{i=1}^{5}N_i\right) &=\mathbb{P}(N_1)\,\cdot\,\mathbb{P}(N_2\mid N_1) \,\cdot\,\mathbb{P}(N_3\mid N_1\cap N_2)\\[0.45em] &\quad\cdot\,\mathbb{P}(N_4\mid N_1\cap N_2\cap N_3) \,\cdot\,\mathbb{P}(N_5\mid N_1\cap N_2\cap N_3\cap N_4)\\[0.8em] &=\frac{48}{52}\cdot\frac{47}{51}\cdot\frac{46}{50}\cdot\frac{45}{49}\cdot\frac{44}{48} \end{aligned}\]

如果用組合方法,也可以寫成 $\binom{48}{5}/\binom{52}{5}$。兩種方法給出的結果相同;乘法原理的好處是,它直接跟「依序抽牌、取後不放回」這個實驗流程相吻合。

思想實驗 1.4

如果你用過 Excel 的樞紐分析表 (PivotTable),或旁邊那種按鈕式的交叉分析篩選器 (slicer),那其實你就已經看過乘法原理的影子。每勾選一個欄位條件,資料表就被縮小一次;勾選越多條件,留下來的資料列就必須同時滿足越多要求。

要求 $A\cap B\cap C$ 的機率時,也可以想成要把資料一步一步篩到同時滿足三個條件。若先篩 $A$,再篩 $B$,最後篩 $C$,就會得到

\[\mathbb{P}(A\cap B\cap C) =\mathbb{P}(A)\,\mathbb{P}(B\mid A)\,\mathbb{P}(C\mid A\cap B)\]

但你也可以先篩 $B$,再篩 $A$,最後篩 $C$:

\[\mathbb{P}(A\cap B\cap C) =\mathbb{P}(B)\,\mathbb{P}(A\mid B)\,\mathbb{P}(C\mid A\cap B)\]

兩條路線最後指向同一個交集,只是每一步的條件機率會跟著篩選順序改變。換句話說,路線可以換,但條件不能亂配;乘法原理不是在說每一步都一樣,而是在說只要每一步的條件接對,就能沿著一條合法路線走到同一個交集事件。

條件不能隨意交換

最後要先提醒一個常見誤解:$\mathbb{P}(A\mid B)$ 與 $\mathbb{P}(B\mid A)$ 通常不是同一件事。前者問的是「在 $B$ 已知發生之下,$A$ 的機率」;後者問的是「在 $A$ 已知發生之下,$B$ 的機率」。兩者的分母不同,參照世界也不同。

Note

條件機率之所以重要,不只是因為它能計算「已知某事後的機率」,更因為它讓我們可以討論資訊如何改變判斷。當我們之後想由 $\mathbb{P}(B\mid A)$ 推回 $\mathbb{P}(A\mid B)$ 時,就會自然走向貝氏定理 (Bayes’ rule)。

本篇小結

本文把條件機率理解為「資訊進來以後的重新評估」:

工具公式核心想法
條件機率$\mathbb{P}(A\mid B)=\mathbb{P}(A\cap B)/\mathbb{P}(B)$在已知 $B$ 發生後重新看 $A$
條件機率測度$A\mapsto\mathbb{P}(A\mid B)$固定條件後仍是機率
乘法原理$\mathbb{P}(A\cap B)=\mathbb{P}(A\mid B)\,\mathbb{P}(B)$用條件機率還原交集機率
廣義乘法原理依序相乘適合描述逐步加入條件的篩選過程

下一篇文章將把條件機率與「分類」放在一起:若樣本空間被一組事件分割成互斥且完整的情況,我們就能得到全機率定理。再往後,若想用新資訊反過來修正原先對各種情況的判斷,就會進入貝氏定理。