R2是一種易于計算和非常直觀的用于度量相關性的指标
我們中的大多數人已經熟悉了相關性和它的度量标準R,就是常說的Pearson相關系數。
如果相關系數R接近1或者-1,則說明這兩個變量是密切相關的, 比如身高與體重。
其實R平方和R非常相似,但是R平方在理解上更容易。
例如:實際上當R=0.7時比0.5要好2倍,但是在數值上面并不直觀。R2可以直接反映出R2=0.7優于R2=0.5的1.4倍。
R方一般用在回歸模型用用于評估預測值和實際值的符合程度,R方的定義如下:變量x引起y變異的回歸平方和占y變異總平方和的比率,也稱為拟合優度表達式:R2=SSR/SST=1-SSE/SST決定系數反應了y的波動有多少百分比能被x的波動所描述,即表征依變數Y的變異中有多少百分比,可由控制的自變數X來解釋.
引出問題舉一個例子:我們用小鼠大小為X軸,Y軸代表小鼠體重, Y坐标越高代表小鼠體重越大。
在這裡, 我們将平均值畫成一條黑線,同時再根據數據拟合一條直線(藍線)。
假設我們知道單個小鼠的大小,那麼小鼠體重預測的最佳方法是用什麼呢?
我們剛才畫的藍線是否比平均線能更好地解釋數據?
如果是的話, 好了多少?
直觀來看,看起來藍線比平均值更好地貼合數據。我們如何量化這兩條線的差異?
R2!!
image.png
R2 例子一下圖是R2的計算公式:
方程中Var(mean)是數據與平均值相關的差異,實際數據值與其平均值的差的平方和
方程中Var(line)是藍線與數據點之間的差異,實際數據值與藍線對應點的數值差的平方和
所以, 這使得R2的值的範圍是從0到1。
image.png
現在我們将通過一個例子來一步一步計算一下R2:
image.png
實際數據值與藍線對應點的數值差的平方和等于6
image.png
根據公式,我們可以計算得到R2=0.81=81%
image.png
這意味着藍線與數據點的差值平方和Var(line) 比 均值Var(mean)的對應數值 少81%
也就是說, 小鼠的大小與重量的相關性能夠解釋總差異的81%,這意味着數據的大部分變化都可以由小鼠重量-大小的關系來解釋。
R2 例子二再舉另一個示例,我們比較兩個可能不相關的變量:
Y軸依然是小鼠重量
X軸表示小鼠嗅探一塊岩石的時間
image.png
與之前的計算一緻, 得到Var(mean) = 32
然而, 我們計算藍線與數據點差的平方和Var(line)時,得到了一個很大的值, 30
通過計算, 我們看到 R2= 0.06 = 6%
因此, 新拟合的線隻比平均值多解釋了6%的差異,也就是說, X與Y二者的相關性僅能解釋總差異的6%
R2 和相關系數R的關系當有人說這個統計學計算R2 =0.9,你可以認為這兩個變量之間的相關性非常好。數據變化的90%可以被解釋。
R2 就是相關系數R的平方,當有人說統計顯著的R = 0.9時,R2 =0.81,這兩個變量解釋了81%的數據與拟合直線間的差異。
同樣,比較R=0.7與R=0.5哪個要好得多,如果我們把這些數字轉換成R平方:
當R = 0.7時, R2 ≈0.5
當R=0.5時,R2 =0.25
用R平方很容易看出, 第一個相關性是第二個相關性的2倍!!
需要注意的是, R平方并不能表示相關性的方向(因為平方數不會小于0)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!