Wei-Ann Lin · 林蔚安
機率概論 · Chapter I · Topic 8

貝氏定理,資訊如何帶來更新

Bayes' Rule and Updating Information


Abstract. 貝氏定理把全機率定理反過來讀。當某個結果已經被觀察到時,它說明我們如何重新分配對不同可能來源的相信程度。

上一篇文章由辛普森悖論說明,分組條件機率與混合後的整體機率可能給出不同方向的比較。由此可知,分割不只是計算技巧,也會影響我們如何理解整體資料。

本篇回到全機率定理本身,並把問題反過來看。全機率定理先問事件 $B$ 可以由哪些來源共同形成;貝氏定理 (Bayes’ rule) 則問,若 $B$ 已經發生,我們該如何判斷它最可能是由哪個來源造成。它不只是另一個條件機率公式,而是在描述資訊進來以後,機率如何被更新

這裡的「更新」不是說世界本身被資訊改變了。地底下有沒有石油,病人有沒有疾病,一封信是不是垃圾郵件,通常早已有某個真實狀態;改變的是我們掌握的資訊,因此也改變了我們對各種可能狀態的機率評估。

以下固定令 $(S,\mathcal{F},\mathbb{P})$ 為一個機率空間。除非特別說明,文中的事件皆是 $\mathcal{F}$ 中的事件。

從總機率到反向追問

假設 $A_1,\ldots,A_n$ 是 $S$ 的一組分割,而事件 $B$ 是我們觀察到的新資訊。從正向角度看,全機率定理給出

\[\mathbb{P}(B)=\sum_{j=1}^{n}\mathbb{P}(B\mid A_j)\,\mathbb{P}(A_j)\]

也就是先看來源 $A_j$ 本身有多常出現,再看該來源之下 $B$ 有多容易發生,最後把所有來源對 $B$ 的貢獻加總。

但若 $B$ 已經發生,問題就變成反向的。所有能產生 $B$ 的來源當中,$A_i$ 這條路線佔了多少比例?這個比例就是 $\mathbb{P}(A_i\mid B)$。

這裡有四個常用名稱。

  1. $\mathbb{P}(A_i)$ 是觀察 $B$ 以前,對來源 $A_i$ 的事前機率 (prior probability)
  2. $\mathbb{P}(B\mid A_i)$ 是在來源 $A_i$ 下觀察到 $B$ 的條件機率 (conditional probability)
  3. $\mathbb{P}(B)$ 是所有來源合起來產生 $B$ 的總機率,也可稱為邊際機率 (marginal probability)
  4. $\mathbb{P}(A_i\mid B)$ 是觀察 $B$ 以後,對來源 $A_i$ 的事後機率 (posterior probability)

這裡的「事前」與「事後」都是相對於事件 $B$ 是否已被觀測到而言。也就是說,$\mathbb{P}(A_i)$ 是尚未把 $B$ 納入資訊時,對來源 $A_i$ 的機率評估;$\mathbb{P}(A_i\mid B)$ 則是在已經知道 $B$ 發生後,重新評估來源 $A_i$ 的機率。它們描述的是資訊狀態的改變,而不必然是事件本身在時間上先後發生。

Historical Note

貝氏定理得名自英國牧師兼數學家 Thomas Bayes。Bayes 生前並未發表這篇機率論文章;他過世後,友人 Richard Price 整理遺稿,才在 1763 年將文章送交 Royal Society 發表。換句話說,今天如此有名的公式,某種意義上是一個「身後被朋友救出來」的定理。

Bayes 原文中的問題也不是以現代符號寫成,而是透過把球隨機丟到桌面上的想像實驗,思考如何由觀察結果反推未知機率。後來 Laplace 也獨立發展並大幅推廣這種由結果反推原因的想法,因此現代貝氏思想其實同時有 Bayes 與 Laplace 的影子。

貝氏定理

Theorem 1.11 (Bayes' Rule)

令 $A_1,\ldots,A_n$ 為 $S$ 的一組分割,且對任意 $i$ 皆有 $\mathbb{P}(A_i)>0$。若 $B\in\mathcal{F}$ 且 $\mathbb{P}(B)>0$,則對任意 $i=1,\ldots,n$,皆有

\[\mathbb{P}(A_i\mid B) =\frac{\mathbb{P}(B\mid A_i)\,\mathbb{P}(A_i)} {\sum_{j=1}^{n}\mathbb{P}(B\mid A_j)\,\mathbb{P}(A_j)}\]

此性質稱為貝氏定理 (Bayes’ rule)

Proof. 由條件機率定義與乘法原理可知

\[\mathbb{P}(A_i\mid B) =\frac{\mathbb{P}(A_i\cap B)}{\mathbb{P}(B)} =\frac{\mathbb{P}(B\mid A_i)\,\mathbb{P}(A_i)}{\mathbb{P}(B)}\]

另一方面,由全機率定理可得

\[\mathbb{P}(B) =\sum_{j=1}^{n}\mathbb{P}(B\mid A_j)\,\mathbb{P}(A_j)\]

將分母代入,即得貝氏定理。 $\square$

Note

貝氏定理的分母不是一個隨便拿來正規化的常數;它正是由全機率定理算出的事件 $B$ 總機率。也就是說,分母回答「$B$ 可以透過哪些方式發生」,並把所有可能來源都納入;分子則只保留其中一個特定來源 $A_i$ 對事件 $B$ 的貢獻。

Example 1.13 (Exploratory Drilling Result)

假設某公司評估一塊區域是否含有可開採石油。令 $O$ 表示「該區域有石油」。根據過去地質資料,公司先認為

\[\mathbb{P}(O)=0.2,\qquad \mathbb{P}(O^{\prime})=0.8\]

接著公司進行一次試挖。令 $N$ 表示「試挖沒有發現可開採石油」。這裡要特別注意,沒有挖到不代表該區域一定沒有石油。油藏可能很深,試挖點也可能偏離主要油層;若下鑽深度不夠,沒有發現本來就是可能結果。

因此,若該區域真的有石油,試挖仍可能沒有發現,其機率為 $0.2$;若該區域沒有石油,試挖自然不會發現石油。也就是

\[\mathbb{P}(N\mid O)=0.2,\qquad \mathbb{P}(N\mid O^{\prime})=1\]

現在試挖結果真的沒有發現可開採石油。此時該區域仍有石油的事後機率為多少?

由全機率定理可得

\[\begin{aligned} \mathbb{P}(N) &=\mathbb{P}(N\mid O)\,\mathbb{P}(O) +\mathbb{P}(N\mid O^{\prime})\,\mathbb{P}(O^{\prime})\\[0.45em] &=0.2\times 0.2+1\times 0.8=0.84 \end{aligned}\]

因此由貝氏定理可得

\[\begin{aligned} \mathbb{P}(O\mid N) &=\frac{\mathbb{P}(N\mid O)\,\mathbb{P}(O)}{\mathbb{P}(N)}\\[0.45em] &=\frac{0.2\times 0.2}{0.84} =\frac{1}{21}\approx 0.048 \end{aligned}\]

試挖結果確實帶來資訊,使有石油的機率從 $0.2$ 向下修正為約 $0.048$。但它沒有讓機率變成 $0$,因為即使該區域真的有石油,試挖也可能沒有命中可開採的位置。因此,新資訊會推動機率移動;至於移動多少,仍取決於事前機率與觀測結果本身的可靠度。

直覺校準 1.8

請注意這個例子裡,地底下是否有石油不是試挖後才決定的。試挖改變的不是地底狀態,而是我們對地底狀態的資訊。

這也是貝氏定理在許多應用中迷人的地方。我們可以把「未知但已存在的狀態」納入機率模型。保險中的風險類別、醫療中的疾病狀態、機器學習中的文件類別,都可以被看成尚未被我們完全知道的狀態;新的資料進來後,這些狀態的機率就會被重新分配。

基準率與原本比例

貝氏定理也說明,新資訊不能脫離原本的基準比例來看。醫療檢驗、保險定價與風險評估中,若只看「某訊號在高風險者中多常出現」,卻忘記高風險者原本佔多少比例,就很容易高估事後機率。

在醫療篩檢中,常見的真陽性 (true positive)、偽陽性 (false positive)、真陰性 (true negative) 與偽陰性 (false negative),本質上都是條件機率。真陽性率是在已知個體真的罹病下,檢驗呈陽性的機率;偽陽性率是在已知個體未罹病下,檢驗卻呈陽性的機率。相對地,真陰性率是在已知個體未罹病下,檢驗呈陰性的機率;偽陰性率則是在已知個體真的罹病下,檢驗卻呈陰性的機率。

醫學上也常用敏感性 (sensitivity)特異性 (specificity) 來描述檢驗表現。敏感性就是真陽性率,也就是 $\mathbb{P}(+\mid D)$;特異性就是真陰性率,也就是 $\mathbb{P}(-\mid D^{\prime})$。因此,偽陽性率是 $1-\text{specificity}$,而偽陰性率是 $1-\text{sensitivity}$。

讀者也可以打開 Rapid Test Bayesian Updating Lab自行調整盛行率、敏感性與特異性,觀察一次陽性或陰性結果如何改變事後機率。特別可以比較敏感性與特異性都高、以及敏感性高但特異性低時,連續檢測路徑如何不同。

例如某疾病在一個族群中的盛行率只有 $1\%$。假設某檢驗對真正罹病者呈陽性的機率為 $0.99$,而對未罹病者也有 $0.05$ 的偽陽性率。令 $D$ 表示「罹病」,令 $+$ 表示「檢驗呈陽性」。若某人檢驗呈陽性,則

\[\begin{aligned} \mathbb{P}(D\mid +) &=\frac{\mathbb{P}(+\mid D)\,\mathbb{P}(D)} {\mathbb{P}(+\mid D)\,\mathbb{P}(D)+\mathbb{P}(+\mid D^{\prime})\,\mathbb{P}(D^{\prime})}\\[0.45em] &=\frac{0.99\times 0.01}{0.99\times 0.01+0.05\times 0.99}\approx 0.167 \end{aligned}\]

即使檢驗看起來很靈敏,陽性之後真正罹病的機率仍大約只有 $16.7\%$。這不是檢驗沒有用,而是因為罹病者在原族群中本來就很少;偽陽性即使比例不高,乘上大量未罹病者以後,仍可能形成相當大的陽性來源。

幾個延伸視角

Perspective

貝氏統計 (Bayesian statistics). 在貝氏統計裡,未知參數本身也被放入機率模型中。資料進來以前,我們用事前分佈 (prior distribution) 描述對參數的認識;資料進來以後,則可更新為事後分佈 (posterior distribution)。因此,貝氏統計把「資訊帶來更新」放在模型的中心。

Naive Bayes classifier. 在分類問題中,我們常想計算「看到這些特徵後,資料屬於某類別的機率」。例如垃圾郵件分類會問,在某些字詞出現後,這封信是 spam 的機率多大?Naive Bayes classifier 的基本形式可以寫成

\[\mathbb{P}(C_k\mid x_1,\ldots,x_m) \propto \mathbb{P}(C_k)\prod_{r=1}^{m}\mathbb{P}(x_r\mid C_k)\]

其中 $C_k$ 是類別,而 $x_1,\ldots,x_m$ 是觀察到的特徵。它之所以稱為 naive,是因為模型通常假設,在給定類別後,這些特徵可以近似看作條件獨立。下一篇會正式討論獨立性;此處只要先把它理解成「給定類別後,特徵之間不再提供太多彼此的額外資訊」即可。

這和本頁搭配的快篩更新 demo 是同一種結構。若把連續幾次檢測結果視為 $x_1,\ldots,x_m$,而把真實疾病狀態視為類別 $C_k$,則每一次陽性或陰性結果,都等於把一個新的條件機率乘進更新式。這樣做之所以合理,正是因為我們暫時假設,在給定真實疾病狀態後,各次檢測誤差可以近似看作彼此獨立。這個假設未必完全真實,但在許多分類與篩檢問題中已經相當有用。

本篇小結

貝氏定理可以視為「全機率定理的反向讀法」,也可以視為一種資訊更新規則。

名稱形式角色
事前機率$\mathbb{P}(A_i)$資訊進來以前,來源 $A_i$ 原本有多可能
條件機率$\mathbb{P}(B\mid A_i)$若來源為 $A_i$,觀察到 $B$ 有多合理
總機率/邊際機率$\mathbb{P}(B)=\sum_j\mathbb{P}(B\mid A_j)\,\mathbb{P}(A_j)$所有來源合起來,觀察到 $B$ 的總機率
事後機率$\mathbb{P}(A_i\mid B)$資訊 $B$ 出現後,來源 $A_i$ 更新後的可能性

條件機率與貝氏定理說明資訊如何改變機率。若資訊進來以後,某個事件的機率完全不變,就會自然導向下一個主題,也就是獨立性

參考文獻與延伸閱讀

  • Thomas Bayes and Richard Price, “An Essay towards Solving a Problem in the Doctrine of Chances”, Philosophical Transactions of the Royal Society of London, 53, 370–418, 1763. doi:10.1098/rstl.1763.0053.
  • H. O. Hartley, “In Dr. Bayes’ Consulting Room”, The American Statistician, 17(1), 22–24, 1963. stable link.
  • Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari, and Donald B. Rubin, Bayesian Data Analysis.
  • Christopher M. Bishop, Pattern Recognition and Machine Learning, chapters on probabilistic classification and Naive Bayes.
  • Morris H. DeGroot and Mark J. Schervish, Probability and Statistics, chapters on Bayes rule and diagnostic testing.
  • Amos Tversky and Daniel Kahneman, “Judgment under Uncertainty: Heuristics and Biases”, Science, 185(4157), 1124–1131, 1974. doi:10.1126/science.185.4157.1124.
  • Gerd Gigerenzer and Ulrich Hoffrage, “How to Improve Bayesian Reasoning without Instruction: Frequency Formats”, Psychological Review, 102(4), 684–704, 1995. doi:10.1037/0033-295X.102.4.684.