Wei-Ann Lin · 林蔚安
機率概論 · Chapter I · Topic 6

分割與全機率定理:從分類到加總

Partitions and the Law of Total Probability


Abstract. 當樣本空間被一組互斥且周延的事件分割時,事件可以被拆成互斥片段;全機率定理將各來源的貢獻加總,成為計算總機率的基本工具。

上一篇文章把條件機率理解為「資訊進來以後的重新評估」。本文換一個角度:如果事件 $B$ 可能由許多不同來源造成,我們可以先把樣本空間依來源切開,再分別計算各來源對 $B$ 的貢獻。

這正是分割 (partition)全機率定理 (the law of total probability) 的角色。它們讓我們把一個總機率拆成幾個互斥片段來計算:先切開來源,逐一計算各來源對目標事件的貢獻,最後再加總。

本文固定令 $(S,\mathcal{F},\mathbb{P})$ 為一個機率空間。除非特別說明,文中的事件皆是 $\mathcal{F}$ 中的事件。

分割:把樣本空間分成不重疊的來源,但沒有遺漏

許多機率問題都可以先問一句話:這件事可能來自哪幾種互不重疊的情況?例如一件產品可能來自不同機台,一位病患可能屬於不同疾病狀態,一封郵件可能來自不同寄件類型。這些「來源」若剛好能把整個樣本空間切乾淨,就形成一組分割。

Definition 1.14

令 $A_1,\ldots,A_n\in\mathcal{F}$。若下列兩條件成立,則它們構成 $S$ 的一組分割 (partition)

  1. 互斥 (mutually exclusive):對任意 $i\neq j$,皆有 $$ A_i\cap A_j=\varnothing $$
  2. 周延 (collectively exhaustive):所有事件合起來正好是整個樣本空間,即 $$ \bigcup_{i=1}^{n}A_i=S $$

互斥表示這些來源不會同時發生;周延表示所有可能情況都已被列入。換句話說,分割就是把樣本空間「分成數個不重複而且沒有遺漏的事件」。

樣本空間被 A_1 到 A_n 分割,而事件 B 被切成 B cap A_i 的互斥片段。
Fig. 1.7. 當 $A_1,\ldots,A_n$ 是 $S$ 的一組分割時,事件 $B$ 會被切成 $B\cap A_1,\ldots,B\cap A_n$ 這些互斥片段。

全機率定理

若 $A_1,\ldots,A_n$ 是 $S$ 的一組分割,那麼任意事件 $B$ 都可以被這組分割切成許多互斥片段:

\[B=\bigcup_{i=1}^{n}(B\cap A_i)\]

這件事來自集合的分配律與分割的周延性。把它放進機率裡,就得到一個計算總機率的工具:切成片段,逐片計算,再加總。

Theorem 1.10 (Law of Total Probability)

令 $A_1,\ldots,A_n$ 為 $S$ 的一組分割,且令 $B\in\mathcal{F}$。則

\[\mathbb{P}(B) =\mathbb{P}\left(\bigcup_{i=1}^{n}(B\cap A_i)\right) =\sum_{i=1}^{n}\mathbb{P}(B\cap A_i)\]

此性質稱為全機率定理 (the law of total probability)

Proof. 因為 $A_1,\ldots,A_n$ 為 $S$ 的一組分割,所以

\[B=B\cap S =B\cap\left(\bigcup_{i=1}^{n}A_i\right) =\bigcup_{i=1}^{n}(B\cap A_i)\]

此外,$B\cap A_1,\ldots,B\cap A_n$ 兩兩互斥。因此由有限可加性可得

\[\mathbb{P}(B) =\mathbb{P}\left(\bigcup_{i=1}^{n}(B\cap A_i)\right) =\sum_{i=1}^{n}\mathbb{P}(B\cap A_i)\]

故得證。 $\square$

若進一步假設 $\mathbb{P}(A_i)>0$,便可以用乘法原理將每個交集機率改寫成

\[\mathbb{P}(B\cap A_i)=\mathbb{P}(B\mid A_i)\,\mathbb{P}(A_i)\]

因此全機率定理常用的條件機率版本為

\[\mathbb{P}(B)=\sum_{i=1}^{n}\mathbb{P}(B\mid A_i)\,\mathbb{P}(A_i)\]

這個公式的意思很樸素:先看每個來源 $A_i$ 本身有多常出現,再看在該來源之下 $B$ 有多容易發生,最後把所有來源的貢獻加總起來。換句話說,這就是機率問題中的分而治之:先把問題依來源切成互不重疊的小問題,再把每一塊的貢獻加回來。在英文片語當中常常聽到的 divide-and-conquer,在這裡就是這個意思。

Example 1.10 (The Monty Hall Problem)

蒙提霍爾問題 (Monty Hall problem) 是一個源自真實歷史故事的數學問題。它得名自美國電視遊戲節目 Let’s Make a Deal;節目主持人正是 Monty Hall。這個實境節目自 1963 年開始播出,核心張力就是「交易」:參賽者可以保留手上的東西,也可以相信主持人的邀請,換成門後、箱子裡或布幕後的未知獎品。這種舞台效果後來被整理成三扇門的標準機率問題;看起來像是剩下兩扇門各半,實際上主持人掌握資訊並刻意打開羊門,才是計算時不能忽略的線索。

考慮這個標準化版本:三扇門中有一扇門後面是車,其餘兩扇門後面是羊。你先選一扇門,主持人知道車在哪裡,並從剩下兩扇門中打開一扇有羊的門。此時若你採取「切換」策略,勝率是多少?

令 $C$ 表示「一開始選到車」,令 $G$ 表示「一開始選到羊」。事件 $C$ 與 $G$ 構成樣本空間的一組分割;其機率為

\[\mathbb{P}(C)=\frac{1}{3},\qquad \mathbb{P}(G)=\frac{2}{3}\]

令 $W$ 表示「切換後獲勝」。若一開始選到車,切換後必定輸;若一開始選到羊,主持人打開另一扇有羊的門後,剩下那扇未開且未選的門必定是車。因此

\[\mathbb{P}(W\mid C)=0,\qquad \mathbb{P}(W\mid G)=1\]

由全機率定理可得

\[\begin{aligned} \mathbb{P}(W) &=\mathbb{P}(W\mid C)\,\mathbb{P}(C) +\mathbb{P}(W\mid G)\,\mathbb{P}(G)\\[0.45em] &=0\cdot\frac{1}{3}+1\cdot\frac{2}{3}=\frac{2}{3} \end{aligned}\]

所以切換策略的勝率為 $2/3$。

這個例子的關鍵不是主持人「改變」了車的位置,而是「一開始選對」與「一開始選錯」這兩種情況形成一組分割;全機率定理把兩種情況下切換策略的貢獻分別算出來,再加總成總勝率。

這個問題之所以經典,正是因為它很容易騙過直覺。主持人打開一扇羊門後,眼前只剩兩扇未開的門,許多人會自然地想:既然只剩兩個選項,機率應該各半。但這個想法忽略了主持人的行動不是隨機揭露,而是帶著資訊的篩選。據說連數學家艾迪胥 (Paul Erdős) 也曾一度不接受切換策略較好的結論,直到看見電腦模擬後才被說服。若想把這個 $2/3$ 看成長期相對頻率,也可以到 Demos 中的蒙提霍爾問題實作親自操作:改變策略、增加模擬次數,觀察切換策略的勝率如何逐漸穩定在理論值附近。

思想實驗 1.5

Monty Hall 問題還有一個等價外衣,稱為三囚徒問題 (three prisoners problem)。

想像有三位囚徒 $A,B,C$,其中一人將獲赦免,另外兩人會被處決。囚徒 $A$ 不知道誰會獲赦,於是請知道結果的守衛在 $B,C$ 之中,說出一位「確定不會獲赦」的人。守衛回答:「$B$ 不會獲赦。」

請先不要急著算。這時 $A$ 會不會像三門問題中的參賽者一樣,以為「剩下 $A$ 與 $C$,所以自己被赦免的機率變成 $1/2$」?若守衛的規則是:他必須避開 $A$,而且只能說出 $B,C$ 中不會獲赦的人;當 $B,C$ 都不會獲赦時,守衛用對稱方式選一位回答,那麼這個問題和 Monty Hall 的結構相同。

對應關係是:囚徒 $A$ 就像一開始選定的門,守衛說出的囚徒就像主持人打開的羊門,剩下的囚徒 $C$ 就像另一扇未開的門。守衛的回答不是隨便透露一個名字,而是在知道答案後刻意避開某些選項。因此,真正被重新分割的仍是「一開始 $A$ 是否就是獲赦者」這件事,而不是簡單地把兩個剩餘選項均分。

Example 1.11 (Manufacturing Defects)

三台機器 $M_1,M_2,M_3$ 製造同一種產品,分別負責總產量的 $20\%,30\%,50\%$;其產品不良率依序為 $5\%,4\%,2\%$。現在從全部產品中隨機抽出一件,問題是:抽到不良品的總機率是多少?

令 $D$ 表示抽到不良品之事件。由題意可知

\[\mathbb{P}(M_1)=0.2,\quad \mathbb{P}(M_2)=0.3,\quad \mathbb{P}(M_3)=0.5\]

另外,各機器之條件不良率為

\[\mathbb{P}(D\mid M_1)=0.05,\quad \mathbb{P}(D\mid M_2)=0.04,\quad \mathbb{P}(D\mid M_3)=0.02\]

因此由全機率定理可得

\[\begin{aligned} \mathbb{P}(D) &=\mathbb{P}(D\mid M_1)\,\mathbb{P}(M_1) +\mathbb{P}(D\mid M_2)\,\mathbb{P}(M_2) +\mathbb{P}(D\mid M_3)\,\mathbb{P}(M_3)\\[0.45em] &=0.05\times 0.2+0.04\times 0.3+0.02\times 0.5=0.032 \end{aligned}\]

所以從全部產品中抽到不良品的機率為 $0.032$。

思想實驗 1.6

如果把 Example 1.11 畫成一張橫向樹狀圖,第一層先問「產品來自哪台機器」,第二層才問「它是否為不良品」。三台機器各自分成 $D$ 與 $D^{\prime}$,因此總共有六條路徑。

三台機器各自分成不良品 D 與非不良品 D prime 的橫向樹狀圖,其中通往 D 的三條路徑以紅色標示。
Fig. 1.8. 三個來源各自再分成 $D$ 與 $D^{\prime}$,共形成六條路徑;紅框中的三個 $D$ 對應到「有 $D$ 的路徑」。

沿著某一條路徑前進時,先乘上走到該來源的機率,再乘上該來源產生 $D$ 的條件機率。例如,走到 $M_1$ 再看到 $D$ 的路徑機率是 $\mathbb{P}(M_1)\,\mathbb{P}(D\mid M_1)$。全機率定理做的事,就是把紅色這三條路徑加起來:這就是有 $D$ 的那三個路徑。

本篇小結

本文的主軸是分割與全機率定理:

工具公式核心想法
分割$A_i\cap A_j=\varnothing,\ \bigcup_i A_i=S$分類且不重複、不遺漏
全機率定理$\mathbb{P}(B)=\sum_i\mathbb{P}(B\mid A_i)\,\mathbb{P}(A_i)$加總各來源對 $B$ 的貢獻

全機率定理回答的是「$B$ 總共多容易發生」。一旦這個總機率被算出來,我們就可以進一步反問:既然 $B$ 已經發生,它最可能是由哪個來源造成?這個反向問題會自然導向貝氏定理。