為什麽變異數公式要用數據與平均數之差的平方來衡量而不是用絕對值？

2020-05-01知識

一個有趣的問題，試著寫點自己的理解

平均值，是統計中的一個重要概念，為集中趨勢的最常用測度值，在統計中算術平均數常用於表示統計物件的一般水平，它是描述數據集中程度的一個統計量。

不過，有沒有考慮過這樣一個問題：究竟是什麽使得平均值（期望值）\hat{μ} 這個得天獨厚的寵兒成為一個測量分布中心或者說數據均衡點的指標，而不是其它，例如中位數，或者處於有序排列數據中間的某個數值呢？

一個原因是均值\hat{μ} 有一個重要的內容，其使得期望平方距離 f(\hat{μ})=E((X−\hat{μ})^2) 最小。

這個方程式的導數為： f′(\hat{μ})=−2E(X−\hat{μ}) ，如果設導數為零，我們可以得到 E(X)=E(\hat{μ}) ,同時因為\hat{μ} 是平均值，因此其期望值就是自己本身，由此我們可以看到： \hat{μ}=E(X)

如果說我們試著最小化絕對距離而不是平方距離，即 g(\tilde{μ})=E(|X−\tilde{μ}|) ，這個比較困難，因為絕對值函式並不總是可微的，我們可以看到，當 X−\tilde{μ}>0 時，導數為 -1 ，當 X−\tilde{μ}<0 時，導數為 +1 。

因此，如果我們選擇一個數值，使X−\tilde{μ}>0 的機率恰好等於X−\tilde{μ}<0 的機率，則導數為零

我們把一半的機率在一邊，另外一半機率在另一邊的數位稱做是什麽呢？我們稱之為中值，同樣是一個重要的度量分布中心。

從上面的論述中，我們已經看到了關心變異數的一個很好原因了：一旦我們決定使用平均數，即\hat{μ}=E(X) 作為我們的中心度量指標，那麽更自然的方法，是使用同樣的標準來衡量差距，即數據與平均數之差的平方f(\hat{μ})=E((X−\hat{μ})^2) 來衡量。

但這並不意味著使用絕對距離的 E(X) 就是完全錯誤的，只是在這個場景下看起來或多或少有些問題。如果你想使用絕對距離，那麽可能應該使用中位數而不是平均值作為你的中心度量指標，這樣的話， g(\tilde{μ})=E(|X−\tilde{μ}|) 就會是首選了。