統計學必會的10個問題!

2021-12-17新聞

來源：計量經濟學

1、問：自由度是什麽？怎樣確定？

答：（定義）構成樣本統計量的獨立的樣本觀測值的數目或自由變動的樣本觀測值的數目。用df表示。

自由度的設定是出於這樣一個理由：在總體平均數未知時，用樣本平均數去計算離差（常用小s）會受到一個限制——要計算標準差（小s）就必須先知道樣本平均數，而樣本平均數和n都知道的情況下，數據的總和就是一個常數了。

所以，「最後一個」樣本數據就不可以變了，因為它要是變，總和就變了，而這是不允許的。

通俗點說，一個班上有50個人，我們知道他們語文成績平均分為80，現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績，但是最後一個人的你不能瞎說，因為平均分已經固定下來，自由度少一個。

2、問：正態分布檢驗中自由度問題

答：在正態分布檢驗中，這裏的M（三個統計量）為：N（總數）、平均數和標準差。

因為我們在做正態檢驗時，要使用到平均數和標準差以確定該正態分布形態，此外，要計算出各個區間的理論次數，我們還需要使用到N。

所以在正態分布檢驗中，自由度為K－3。

3、問：t檢驗

答：t檢驗適用於兩個變量均數間的差異檢驗，多於兩個變量間的均數比較要用變方分析。

無論哪種類別的t檢驗，都必須在滿足特定的前提條件下: 正態性和變異數齊性，套用才是合理的。這是因為必須在這樣的前提下所計算出的t統計量才服從t分布，而t檢驗正是以t分布作為其理論依據的檢驗方法。

t檢驗是目前醫學研究中使用頻率最高，醫學論文中最常見到的處理定量資料的假設檢驗方法。

4、問：統計學意義（P值）

答：結果的統計學意義是結果真實程度（能夠代表總體）的一種估計方法。專業上，P值為結果可信程度的一個遞減指標，P值越大，我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。

P值是將觀察結果認為有效即具有總體代表性的犯錯概率。如P=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯

我們重復類似實驗，會發現約20個實驗中有一個實驗，我們所研究的變量關聯將等於或強於我們的實驗結果。（這並不是說如果變量間存在關聯，我們可得到5%或95%次數的相同結果，當總體中的變量存在關聯，重復研究和發現關聯的可能性與設計的統計學效力有關。）

在許多研究領域，0.05的P值通常被認為是可接受錯誤的邊界水平。

5、問：如何判定結果具有真實的顯著性

答：在最後結論中判斷什麽樣的顯著性水平具有統計學意義，不可避免地帶有武斷性。換句話說，認為結果無效而被拒絕接受的水平的選擇具有武斷性。

實踐中，最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩比較，依賴於總體數據集裏結論一致的支持性證據的數量，依賴於以往該研究領域的慣例。

通常，許多的科學領域中產生P值的結果≤0.05被認為是統計學意義的邊界線，但是這顯著性水平還包含了相當高的犯錯可能性。結果 0.05≥P>0.01被認為是具有統計學意義，而0.01≥P≥0.001被認為具有高度統計學意義。但要註意這種分類僅僅是研究基礎上非正規的判斷常規。

6、問：所有的檢驗統計都是正態分布的嗎？

答：並不完全如此，但大多數檢驗都直接或間接與之有關，可以從正態分布中推匯出來，如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求：所分析變量在總體中呈正態分布，即滿足所謂的正態假設。許多觀察變量的確是呈正態分布的，這也是正態分布是現實世界的基本特征的原因。

隨著樣本量的增加，樣本分布形狀趨於正態，即使所研究的變量分布並不呈正態。

7、問：假設檢驗的內涵及步驟

答：在假設檢驗中，由於隨機性我們可能在決策上犯兩類錯誤，一類是假設正確，但我們拒絕了假設，這類錯誤是「棄真」錯誤，被稱為第一類錯誤；

一類是假設不正確，但我們沒拒絕假設，這類錯誤是「取偽」錯誤，被稱為第二類錯誤。

一般來說，在樣本確定的情況下，任何決策無法同時避免兩類錯誤的發生，即在避免第一類錯誤發生機率的同時，會增大第二類錯誤發生的機率；或者在避免第二類錯誤發生機率的同時，會增大第一類錯誤發生的機率。人們往往根據需要選擇對那類錯誤進行控制，以減少發生這類錯誤的機率。大多數情況下，人們會控制第一類錯誤發生的概率。

發生第一類錯誤的概率被稱作顯著性水平，一般用α表示，在進行假設檢驗時，是透過事先給定顯著性水平α的值而來控制第一類錯誤發生的概率。

在這個前提下，假設檢驗按下列步驟進行：

1）確定假設；

2）進行抽樣，得到一定的數據；

3）根據假設條件下，構造檢驗統計量，並根據抽樣得到的數據計算檢驗統計量在這次抽樣中的具體值；

4）依據所構造的檢驗統計量的抽樣分布，和給定的顯著性水平，確定拒絕域及其臨界值；

5）比較這次抽樣中檢驗統計量的值與臨界值的大小，如果檢驗統計量的值在拒絕域內，則拒絕假設；

到這一步，假設檢驗已經基本完成，但是由於檢驗是利用事先給定顯著性水平的方法來控制犯錯概率的，所以對於兩個數據比較相近的假設檢驗，我們無法知道那一個假設更容易犯錯，即我們透過這種方法只能知道根據這次抽樣而犯第一類錯誤的最大概率（即給定的顯著性水平），而無法知道具體在多大概率水平上犯錯。

計算 P值有效的解決了這個問題，P值其實就是按照抽樣分布計算的一個概率值，這個值是根據檢驗統計量計算出來的。透過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設，顯然這就代替了比較檢驗統計量的值與臨界值的大小的方法。

而且透過這種方法，我們還可以知道在p值小於α的情況下犯第一類錯誤的實際概率是多少，p＝0.03<α=0.05，那麽拒絕假設，這一決策可能犯錯的概率是0.03。需要指出的是，如果P>α，那麽假設不被拒絕，在這種情況下，第一類錯誤並不會發生。

8、問：卡方檢驗的結果，值是越大越好，還是越小越好？

答：與其它檢驗一樣，所計算出的統計量越大，在分布中越接近分布的尾端，所對應的概率值越小。如果試驗設計合理、數據正確，顯著或不顯著都是客觀反映。沒有什麽好與不好。

9、問：在比較兩組數據的率是否相同時，二項分布和卡方檢驗有什麽不同？

答：卡方分布主要用於多組多類的比較，是檢驗研究物件總數與某一類別組的觀察頻數和期望頻數之間是否存在顯著差異，要求每格中頻數不小於5，如果小於5則合並相鄰組。

二項分布則沒有這個要求。如果分類中只有兩類還是采用二項檢驗為好。如果是2*2表格可以用fisher精確檢驗，在小樣本下效果更好。

10、問：如何比較兩組數據之間的差異性

答：從三個方面來回答，

1）設計類別是完全隨機設計兩組數據比較，不知道數據是否是連續性變量？

2）比較方法：如果數據是連續性數據，且兩組數據分別服從正態分布和變異數齊性檢驗，則可以采用t檢驗，如果不服從以上條件可以采用其他檢驗。

3）想知道兩組數據是否有明顯差異？不知道這個明顯差異是什麽意思？是問差別有無統計學意義（即差別的概率有多大）還是兩總體均數差值在哪個範圍波動？如果是前者則可以用第2步可以得到P值，如果是後者，則是用均數差值的置信區間來完成的。