假设始终是假设,它不一定是真的。 我们拒收虚假设(对立假设)只是基于抽样后所得的点估计与虚假设指定的总体参数相差太远之故,所以仍是有机会犯错的。α和β其实就是用来形容我们犯错的机会。
虚假设可能是对也可能是错,它亦有可能被接收或拒收,因此每一个检验都有下列四个可能的决定:
1.接收了对的虚假设
2.拒收了错的虚假设
3.拒收了对的虚假设
4.接收了错的虚假设
以上四个决定中只有1及2是正确的。决定3的错误称为"I型误差"(type I error),它发生的概率以α表示。决定4的错误称为"II型误差"(type II error),它发生的概率以β表示。于是1-β便是正确地拒收一个错误虚假设的概率,它被称为检验功效(power of the test)。
检验的时候,我们会预先定下α值,这值称为该检验的显著水平(Significance Level),这值代表我们能容忍第一类误差的最大概率极限。
α值愈小表示我们不会随便拒收虚假设,这种情况在医学上常会面对,比如某药厂推出一种新药物,宣称比一种沿用已久的旧药物更有效。
医学界便对这两种药物进行临床测试,因为涉及健康甚至生命,所以对于采用新药物治疗会比较审慎,定出的显著水平通常很小,譬如0.001。
若虚假设是错的,对于备择假设中每一个值,我们都可以计算出错误地接收虚假设的概率β和正确地拒收虚假设的概率1-β 。
所以β是真参数值的函数,我们称它为β函数,而1-β又被称为功效函数(power function)。
在六西格玛 [1] 项目 DMAIC中的分析階段中,六西格玛绿带或黑带们都常常需要作出决定,而错误的决定往往令我们的项目付出很大的代价。
在检验过程中,我们先确定α值,然后再从统计中得出的数值以决定是否接收虚假设。但以甚么准则来决定这α值呢?通常有以下两个准则。
第一个是我们先验的信赖程度,就以上述测试新药为例,若我们觉得该药厂一直信誉良好,我们不妨定下较大的α值,反之,可定得较小。
第二个是犯第一类误差和第二类误差的代价,我们知道当α减少,β必然会增大,所以若犯第一类误差的代价大,我们便订立较小的α值。
再以上述测试新药为例,若要检验的是一种治疗心脏病的药,而现在一直沿用的旧药又没有甚么不妥,我们便选择较小的α值;如果要检验的是一种普通治头痛药,那么我们便可选择较大 的α值。
在检验时,我们不必要先定下显著水平。
取而代之,我们可以计算P值 (p-value)。
P值其实就是拒收现在样本的概率,即我们拒收Ho而犯第一类误差的概率。当p-值比显著水平α小时,即犯第一类误差的概率是在我们可接受的范围内,所以我们便拒收Ho。
参考
- ^ 优思学院|六西格玛认证课程 https://ucourse.org