假設始終是假設,它不一定是真的。 我們拒收虛假設(對立假設)只是基於抽樣後所得的點估計與虛假設指定的總體參數相差太遠之故,所以仍是有機會犯錯的。α和β其實就是用來形容我們犯錯的機會。
虛假設可能是對也可能是錯,它亦有可能被接收或拒收,因此每一個檢驗都有下列四個可能的決定:
1.接收了對的虛假設
2.拒收了錯的虛假設
3.拒收了對的虛假設
4.接收了錯的虛假設
以上四個決定中只有1及2是正確的。決定3的錯誤稱為"I型誤差"(type I error),它發生的機率以α表示。決定4的錯誤稱為"II型誤差"(type II error),它發生的機率以β表示。於是1-β便是正確地拒收一個錯誤虛假設的機率,它被稱為檢驗功效(power of the test)。
檢驗的時候,我們會預先定下α值,這值稱為該檢驗的顯著水平(Significance Level),這值代表我們能容忍第一類誤差的最大機率極限。
α值愈小表示我們不會隨便拒收虛假設,這種情況在醫學上常會面對,比如某藥廠推出一種新藥物,宣稱比一種沿用已久的舊藥物更有效。
醫學界便對這兩種藥物進行臨床測試,因為涉及健康甚至生命,所以對於采用新藥物治療會比較審慎,定出的顯著水平通常很小,譬如0.001。
若虛假設是錯的,對於備擇假設中每一個值,我們都可以計算出錯誤地接收虛假設的機率β和正確地拒收虛假設的機率1-β 。
所以β是真參數值的函式,我們稱它為β函式,而1-β又被稱為功效函式(power function)。
在六西格瑪 [1] 計畫 DMAIC中的分析階段中,六西格瑪綠帶或黑帶們都常常需要作出決定,而錯誤的決定往往令我們的計畫付出很大的代價。
在檢驗過程中,我們先確定α值,然後再從統計中得出的數值以決定是否接收虛假設。但以甚麽準則來決定這α值呢?通常有以下兩個準則。
第一個是我們先驗的信賴程度,就以上述測試新藥為例,若我們覺得該藥廠一直信譽良好,我們不妨定下較大的α值,反之,可定得較小。
第二個是犯第一類誤差和第二類誤差的代價,我們知道當α減少,β必然會增大,所以若犯第一類誤差的代價大,我們便訂立較小的α值。
再以上述測試新藥為例,若要檢驗的是一種治療心臟病的藥,而現在一直沿用的舊藥又沒有甚麽不妥,我們便選擇較小的α值;如果要檢驗的是一種普通治頭痛藥,那麽我們便可選擇較大 的α值。
在檢驗時,我們不必要先定下顯著水平。
取而代之,我們可以計算P值 (p-value)。
P值其實就是拒收現在樣本的機率,即我們拒收Ho而犯第一類誤差的機率。當p-值比顯著水平α小時,即犯第一類誤差的機率是在我們可接受的範圍內,所以我們便拒收Ho。
參考
- ^ 優思學院|六西格瑪認證課程 https://ucourse.org