一个有趣的问题,试着写点自己的理解
平均值,是统计中的一个重要概念,为集中趋势的最常用测度值,在统计中算术平均数常用于表示统计对象的一般水平,它是描述数据集中程度的一个统计量。
不过,有没有考虑过这样一个问题:究竟是什么使得平均值(期望值)\hat{μ} 这个得天独厚的宠儿成为一个测量分布中心或者说数据均衡点的指标,而不是其它,例如中位数,或者处于有序排列数据中间的某个数值呢?
一个原因是均值\hat{μ} 有一个重要的属性,其使得期望平方距离 f(\hat{μ})=E((X−\hat{μ})^2) 最小。
这个方程的导数为: f′(\hat{μ})=−2E(X−\hat{μ}) ,如果设导数为零,我们可以得到 E(X)=E(\hat{μ}) ,同时因为\hat{μ} 是平均值,因此其期望值就是自己本身,由此我们可以看到: \hat{μ}=E(X)
如果说我们试着最小化绝对距离而不是平方距离,即 g(\tilde{μ})=E(|X−\tilde{μ}|) ,这个比较困难,因为绝对值函数并不总是可微的,我们可以看到,当 X−\tilde{μ}>0 时,导数为 -1 ,当 X−\tilde{μ}<0 时,导数为 +1 。
因此,如果我们选择一个数值,使X−\tilde{μ}>0 的概率恰好等于X−\tilde{μ}<0 的概率,则导数为零
我们把一半的概率在一边,另外一半概率在另一边的数字称做是什么呢?我们称之为中值,同样是一个重要的度量分布中心。
从上面的论述中,我们已经看到了关心方差的一个很好原因了:一旦我们决定使用平均数,即\hat{μ}=E(X) 作为我们的中心度量指标,那么更自然的方法,是使用同样的标准来衡量差距,即数据与平均数之差的平方f(\hat{μ})=E((X−\hat{μ})^2) 来衡量。
但这并不意味着使用绝对距离的 E(X) 就是完全错误的,只是在这个场景下看起来或多或少有些问题。如果你想使用绝对距离,那么可能应该使用中位数而不是平均值作为你的中心度量指标,这样的话, g(\tilde{μ})=E(|X−\tilde{μ}|) 就会是首选了。