機率概論 · Chapter II · Topic 6

變異數與標準差

Variance and Standard Deviation

Abstract. 期望值給出隨機變數的平均位置。變異數則衡量隨機變數離開此平均位置的平均程度，標準差再把單位還原回原來的尺度。

上一篇文章討論期望值。期望值給出的是隨機變數的平均位置。不過，只知道平均位置仍然不夠。兩個隨機變數可能具有相同的期望值，卻一個大多集中在平均值附近，另一個常常離平均值很遠。

因此，除了平均位置之外，我們還需要衡量隨機變數在此位置附近的分散程度。這個量數稱為變異數 (variance)。

兩個分佈有相同的期望值，但分散程度不同。 — Fig. 2.14. 兩個分佈可以有相同的期望值，卻有不同的分散程度。紅色曲線較分散，綠色曲線較集中；前者對應的變異數較大。

離差與平方

令 $\mu_X=\mathbb{E}(X)$。若 $X$ 取到某個數值，則 $X-\mu_X$ 表示此數值離開平均位置的差距。這個差距稱為離差 (deviation)。

直接把離差取平均並不能衡量分散程度，因為正離差與負離差會互相抵消。事實上，只要期望值存在，就有

\[\mathbb{E}(X-\mu_X)=0\]

因此，若要把「離平均值有多遠」整理成一個非負量，最常見的方式是先取平方，再求期望值。這便導向變異數的定義。

變異數

Definition 2.7

令 $X$ 為隨機變數，且 $\mu_X=\mathbb{E}(X)$。若 $\mathbb{E}(X^2)<\infty$，則稱

\[\mathrm{Var}(X) = \mathbb{E}\big[(X-\mu_X)^2\big]\]

為 $X$ 的變異數 (variance)。變異數也常記為 $\sigma_X^2$。

若 $X$ 為離散型隨機變數，PMF 為 $p_X$，則

\[\mathrm{Var}(X) = \sum_{x\in\mathcal{R}_X}(x-\mu_X)^2p_X(x)\]

若 $X$ 為連續型隨機變數，PDF 為 $f_X$，則

\[\mathrm{Var}(X) = \int_{-\infty}^{\infty}(x-\mu_X)^2f_X(x)\,dx\]

變異數本身也是一種期望值。它不是直接平均 $X$，而是平均 $(X-\mu_X)^2$。換言之，變異數是離差平方的期望值，可用來描述隨機變數平均而言離開期望值的程度。

直覺校準 2.8

平方有兩個作用。第一，平方後的離差不會發生正負相消。第二，較大的離差在平方後會被放大，因此變異數對遠離平均值的取值相當敏感。

這個性質有利也有弊。若遠離平均值的結果本來就值得特別注意，平方會把它清楚呈現出來。若資料中存在極端值，變異數也會受到較明顯的影響。這也是後續統計學會另外討論其他分散量數的原因之一。

Example 2.7 (Same Mean, Different Variance)

令 $X$ 與 $Y$ 為兩個離散型隨機變數，其分佈可寫為

\[\mathbb{P}(X=0)=\mathbb{P}(X=2)=\frac{1}{2}\]

以及

\[\mathbb{P}(Y=0.5)=\mathbb{P}(Y=1.5)=\frac{1}{2}\]

兩者皆以 $1$ 為對稱中心，所以期望值同為 $1$。然而，$X$ 的取值離 $1$ 較遠，$Y$ 的取值離 $1$ 較近。由定義可得

\[\mathrm{Var}(X) = (0-1)^2\cdot\frac{1}{2} +(2-1)^2\cdot\frac{1}{2} =1\]

而

\[\mathrm{Var}(Y) = (0.5-1)^2\cdot\frac{1}{2} +(1.5-1)^2\cdot\frac{1}{2} =\frac{1}{4}\]

因此，即使兩個隨機變數有相同的期望值，它們也可能有不同的分散程度。

Note

這個例子選用離散型隨機變數，是因為有限個取值能讓計算一眼看清楚。變異數的定義並不侷限於離散型；若 $X$ 為連續型隨機變數，則同樣是計算離差平方的期望值，只是由 PMF 加總改為用 PDF 積分。

變異數的計算公式

由定義直接計算變異數有時不太方便。展開平方後，可得到另一個常用公式。

Proposition 2.7 (Computing Variance)

若 $X$ 的變異數存在，則

\[\mathrm{Var}(X) = \mathbb{E}(X^2)-[\mathbb{E}(X)]^2\]

證明可由定義直接展開。令 $\mu_X=\mathbb{E}(X)$，並使用前一篇整理的期望值的線性關係，則

\[\begin{aligned} \mathrm{Var}(X) &= \mathbb{E}\big[(X-\mu_X)^2\big] \\[0.45em] &= \mathbb{E}(X^2-2\mu_X X+\mu_X^2) \\[0.45em] &= \mathbb{E}(X^2)-2\mu_X\mathbb{E}(X)+\mu_X^2 \\[0.45em] &= \mathbb{E}(X^2)-[\mathbb{E}(X)]^2 \end{aligned}\]

這個公式可記為「平方的期望值，減去期望值的平方」。在許多計算中，先求 $\mathbb{E}(X)$ 與 $\mathbb{E}(X^2)$，再相減，往往比直接套用離差平方更簡潔。

Example 2.8 (Variance from $\mathbb{E}(X^2)$)

延續上一篇文章 Example 2.5 的抽球例子。箱中有四顆編號 $0,1,2,3$ 的球，從中一次抽取兩顆球，不考慮抽取順序，令 $X$ 表示兩顆球的號碼總和。該例中 $\mathbb{E}(X)=3$，且 PMF 為

$x$	1	2	3	4	5
$p_X(x)$	$1/6$	$1/6$	$1/3$	$1/6$	$1/6$

由此可先計算

\[\mathbb{E}(X^2) = 1^2\cdot\frac{1}{6} +2^2\cdot\frac{1}{6} +3^2\cdot\frac{1}{3} +4^2\cdot\frac{1}{6} +5^2\cdot\frac{1}{6} = \frac{32}{3}\]

故

\[\mathrm{Var}(X) = \mathbb{E}(X^2)-[\mathbb{E}(X)]^2 = \frac{32}{3}-9 = \frac{5}{3}\]

標準差

變異數採用平方，因此其單位也是原隨機變數單位的平方。例如 $X$ 以公分為單位，$\mathrm{Var}(X)$ 的單位便是平方公分。為了回到原本的尺度，通常會再取平方根，得到標準差 (standard deviation)。

Definition 2.8

若 $X$ 的變異數存在，則定義 $X$ 的標準差 (standard deviation) 為

\[\sigma_X = \sqrt{\mathrm{Var}(X)}\]

標準差與 $X$ 有相同的單位，因此在描述實際情境時通常較容易解讀。變異數在代數推導中較方便，標準差則較適合回到原尺度解釋分散程度。

平移與伸縮

變異數與標準差有幾個基本性質。這些性質都與「分散程度」的意義相符。

Proposition 2.8

若 $a,b$ 為常數，且 $X$ 的變異數存在，則

\[\mathrm{Var}(X)\geq 0\] \[\mathrm{Var}(aX+b)=a^2\mathrm{Var}(X)\]

因此

\[\sigma_{aX+b}=|a|\,\sigma_X\]

非負性可由定義中的加總或積分形式看出，因為離差平方與機率權重皆非負。至於平移與伸縮，令

\[Y=aX+b\]

由期望值的線性關係可知

\[\mu_Y = \mathbb{E}(Y) = a\mu_X+b\]

因此

\[\begin{aligned} \mathrm{Var}(aX+b) &= \mathbb{E}\big[(Y-\mu_Y)^2\big] \\[0.45em] &= \mathbb{E}\big[(aX+b-a\mu_X-b)^2\big] \\[0.45em] &= \mathbb{E}\big[a^2(X-\mu_X)^2\big] \\[0.45em] &= a^2\mathrm{Var}(X) \end{aligned}\]

再由標準差的定義，可得

\[\sigma_{aX+b} = \sqrt{\mathrm{Var}(aX+b)} = |a|\,\sigma_X\]

平移不會改變分散程度。若把每個取值都加上同一個常數 $b$，整個分佈只是往左或往右移動，離平均值的相對距離並未改變。

伸縮則會改變分散程度。若把 $X$ 乘上 $a$，離差也會乘上 $a$，離差平方便會乘上 $a^2$。因此，變異數具有平方伸縮性；標準差取平方根後，則具有絕對伸縮性。

Note

本篇討論的是隨機變數本身的變異數與標準差，屬於母體層次的量數。之後進入統計推論時，還會遇到樣本變異數與樣本標準差。樣本版本會多出自由度與估計量的討論，屆時再另外處理。

本篇小結

期望值說明隨機變數的平均位置，變異數則衡量隨機變數離開此平均位置的平均程度。若 $\mu_X=\mathbb{E}(X)$，則

\[\mathrm{Var}(X) = \mathbb{E}\big[(X-\mu_X)^2\big]\]

變異數也可用下式計算。

\[\mathrm{Var}(X) = \mathbb{E}(X^2)-[\mathbb{E}(X)]^2\]

標準差為

\[\sigma_X=\sqrt{\mathrm{Var}(X)}\]

變異數適合代數運算，標準差則把單位還原到與隨機變數相同的尺度。後續處理常見分佈、抽樣分佈與統計推論時，期望值與變異數會是最常使用的兩個量數。

參考文獻與延伸閱讀

黃文璋，《數理統計》，第 1 章第 6 節「期望值、變異數及拉普拉斯轉換」。
Patrick Billingsley, Probability and Measure, 3rd ed., Wiley, 1995, chapters on integration, expectation, and moments.
William Feller, An Introduction to Probability Theory and Its Applications, Volume I, 3rd ed., Wiley, 1968, chapters on mathematical expectation and variance.
George Casella and Roger L. Berger, Statistical Inference, 2nd ed., Duxbury, 2002, sections on expected values, variances, and moments.
Sheldon M. Ross, A First Course in Probability, 10th ed., Pearson, 2019, chapters on expectation and variance.
Joseph K. Blitzstein and Jessica Hwang, Introduction to Probability, 2nd ed., CRC Press, 2019, chapters on expectation, variance, and standard deviation.