R平方是用于評估我們的回歸模型的拟合優度的統計度量。
在R平方中,我們有一個基線模型,它是最差的模型。該基線模型沒有使用任何獨立變量來預測因變量Y的值。相反,它使用因變量Y的觀測響應的平均值,并始終将該平均值預測為Y的值。
我們适合的任何回歸模型都與該基線模型進行比較,以了解它是否合适。
換句話說,R-squared簡單地解釋了與基線模型相比,您的模型有多好
上圖中的紅線是基線模型,它總是預測因變量Y的觀測響應的均值作為Y的值,而不考慮自變量的值。
綠線是我們的拟合模型,它利用自變量來預測因變量Y的值。
R平方的數學表示R平方由下式給出
其中SSE是我們的回歸模型的誤差平方的總和
而SST是我們的基礎模型的誤差平方的總和。
R平方值可以取的範圍是多少?
我們最糟糕的回歸模型可能是基線模型本身。
因此,在這種情況下,SSE将等于SST。
所以R平方将等于
R平方= 1-1 = 0
這就是R平方= 0的模型的樣子
我們最好的模型将是完美适合所有數據點的模型,所以在這種情況下SSE将為0。
所以,R平方= 1-0 = 1表示一個完美的模型。
與模型R平方接近1
所以R平方可以取0到1之間的值,其中接近于0的值表示不合适,而接近1的值表示完美契合。
如何解釋R平方?
如果R平方= 0.93,則意味着因變量Y的93%變化由我們模型中存在的自變量解釋。
使用R平方的缺陷R-squared可以被人為地提高。也就是說,我們可以通過簡單地向模型添加越來越多的自變量來增加R平方的值。
換句話說,在添加更多獨立變量時,R平方不會減少。
有時候,這些變量中的一些可能非常微不足道,對我們的模型來說可能是無用的。
為什麼會發生?
當SSE / SST最小時,R平方最大。
為了SSE / SST最低,SSE應該是最小的。
現在,随着我們向模型添加更多解釋變量,SSE将會減少。這是因為我們在回歸模型中添加了更多的解釋變量,所以我們的回歸模型會更好地拟合數據點,因此平方誤差的總和會減少。因此即使變量對我們的模型不重要,R平方也會增加。
為了避免由R平方引起的這個問題,我們使用調整的R平方
調整R平方調整後的R平方簡單地懲罰了添加更多無用變量的模型。
調整的R平方由下式 給出
n =沒有數據點
p =模型中不使用的獨立變量
調整的R平方是如何工作的?随着我們模型中增加自變量的 數量 ,n-p-1減少,所以如果我們除以
通過越來越小的數字,結果值将越來越大,并且當從1減去該值時,調整的R平方 将減小。
所以通過增加更多無用的變量,調整的R平方的值減小。
例
考慮以下數據
考慮使用x1和x2作為獨立變量的模型1來預測變量y的值
這個模型的R平方= 0.909。調整的R平方為此計算為
現在,如果我們選擇将另一個變量x3添加到我們以前的模型中
這個模型的R平方= 0.912,比我們以前的模型略高。調整的R平方為此計算為
注意在這個例子中,當我們将變量x3添加到我們的模型中時,R平方的值的增加(與之前的模型相比)非常小(0.003),除此之外分母的值已經從10降到9。因此調整R平方的結果值下降,表明x3對我們的模型不重要。
這很好解釋了當我們向模型中添加越來越多的無用變量時,R值的平方值不會顯着增加,調整的R值的平方值就會下降。
R平方與調整的R平方有什麼不同?R平方告訴你模型如何适合數據點,而調整的R平方告訴你模型的特定特征有多重要。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!