當前位置: 華文星空 > 財經

不懂就問,多元線性回歸中rss的自由度為什麽是n

2022-06-26財經

你看到的不同版本n-k和n-k-1的區別,應該是取決於這個k裏面有沒有包含截距項。有的書是預設截距包含在自變量矩陣 X_{n*k} 裏面的,那樣的話rss自由度是n-k;不包含截距就是n-k-1。兩種是等價的,應該只是模型寫法問題。據我所知大部份書裏k是不包含截距的,rss自由度用的是n-k-1,以下以此為例 y_i=\beta_0+X_i\beta + \epsilon,X_i \in R^k :

rss的自由度是n-k-1而ess的自由度是k,因為rss和ess是互補的。給定一個數據集,它的總體variation(固定值)等於rss+ess。ess是模型解釋了這麽多variation,rss是還剩這麽多variation沒能解釋。而你說的k是ess的自由度也就是模型裏的參數個數,k越大模型越自由能解釋的variation越多;rss是模型擬合之後剩下來的,值和自由度自然就越小。

至於為啥加起來是n-1: 總共有n個樣本,預設截距占了一個自由度(也就是說null model是 y_i = \bar y 而不是 y_i = 0 ,本來就有一個限制),所以這倆自由度加起來是n-1。可以這麽理解:一個n個樣本的數據集 \{y_{n*1}, X_{n*k}\} 如果可以用ols「完美」回歸(預測值=真實值)的話,需要k=n-1個自變量加上一個截距 (如果有一個 n*n 的滿秩矩陣 [X_{n*(n-1)}, 1] ,那就不需要用最小平方法了,直接 \beta = X^{-1}y 就完事了)。這個模型擬合出來已經沒有random error了,rss就完全沒有「自由」了。此時ess模型的自由度為n-1,rss自由度為0。繼續增加自變量的個數的話,ols的解就不唯一了,這個模型就失去了意義。這也是為什麽傳統ols要求特征個數小於樣本個數。

(當然這個所謂「完美」回歸不一定存在,比如兩個樣本有完全相同的 X_i 但是不同的 y_i 時,就永遠不可能讓rss等於0。這裏只是方便理解)