tft每日頭條

 > 生活

 > 最小二乘法求回歸方程具體推導

最小二乘法求回歸方程具體推導

生活 更新时间:2024-07-31 22:21:55

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)1

你可能聽說過比薩斜塔的故事。在建造過程中,塔開始逐漸向一邊傾斜。

假設吉諾( Gino),其中一位工程師,想預測塔的未來傾斜度。他想知道傾斜度是否會增加,到明年會增加多少。吉諾的唯一信息是下面的表格,其中包含了每年以十分之一毫米為單位的傾斜度。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)2

為了更好地分析這些數據,吉諾繪制了以下散點圖。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)3

  • 圖1:散點圖

散點圖以圖形方式直觀地顯示了兩個定量變量之間的關系。有時一個變量取決于另一個變量。在這種情況下,自變量被放在橫軸上,因變量被放在縱軸上。對于比薩斜塔,傾斜度取決于年份。因此,年份被放在橫軸上,傾斜度被放在縱軸上。

吉諾注意到,在看圖時,這些數據點似乎在一條具有正斜率的直線上。

當一組數據點呈上升趨勢時的時候,變量之間呈正相關。當一組數據點呈下降趨勢時,變量之間呈負相關。另外,如果數據點基本在一條直線或某條曲線上,那麼變量之間就是強相關。如果數據點不明顯地在一條直線或某條曲線上,那麼變量之間就是弱相關(見圖2.a)。也有可能根本就沒有任何相關性(見圖2.b)。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)4

  • 圖2:弱相關和無相關

吉諾的目标是用他的圖(見圖1)來預測塔的未來傾斜度。他可以通過計算最适合給定數據點的直線的函數來做到這一點。換句話說,他可以用線性回歸技術來實現。

相關系數

在談論線性回歸之前,我首先想談談相關系數r。它不僅可以告訴我們是否值得做線性回歸。它在線性回歸本身也起着非常重要的作用。

相關系數r顯示了一個線性關系的強度和方向(正或負)。當兩個變量之間存在正向相關時,r為正。當變量之間的關系為負相關時,r也為負數。如果數據點正好描述了一條直線,r等于1或-1。當完全沒有相關關系時,r将等于零。如果某組數據點的相關系數相當低(0.5>r>-0.5),那麼線性回歸可能不會給我們帶來非常可信的結果。隻有當r高于0.5或低于-0.5時才值得做線性回歸。

為了計算r,我們可以使用皮爾遜公式(Pearson’s formula):

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)5

在這個公式中,n是數據點的數量,x_i是數據點i的x坐标,x̄(x上有一橫,如果沒有顯示)是所有x坐标的平均值,y_i是數據點i的y坐标,ȳ(y上有一橫)是所有y坐标的平均值,s_x是所有x坐标的标準差和s_y是所有y坐标的标準差。标準差計算公式為:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)6

基本上,數據點沿x軸/y軸越分散,s_x/s_y越大。

順便提一下,皮爾遜公式有很多形式,但對于一組給定的點,公式的輸出應該總是相同的。

皮爾遜公式背後的邏輯

雖然皮爾遜公式一開始可能有點讓人不知所措,但它背後的邏輯并不難。比方說,給定一組數據點,我們進行某種計算,如果數據點描述的是正斜率,就得出一個正值,如果是負斜率,就得出一個負值。為了做到這一點,我們可以将點集分成四個區域(象限),用所有x值的平均值(x=x̄)和所有y值的平均值(y=ȳ)來劃分象限。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)7

  • 圖3:帶有象限的散點圖

當點之間存在正相關關系時(點的集合是上升的),大部分的點将在象限I和III。在負相關的情況下,大部分的點會在第二象限和第四象限。知道了這一點,我們可以給第一象限或第三象限的每個點分配一個正值( 1),給第二象限或第四象限的每個點分配一個負值(-1)。然後,所有這些正負值的總和将在正相關時給我們一個正的結果,在負相關時給我們一個負的結果。

盡管這種方法可能會給我們提供關于斜率符号的信息,但它并沒有提供關于相關性本身的任何信息。例如,圖4.a中所有分配值之和與圖4.b相同(都是 6)。然而,這兩張圖之間的相關性卻有很大差别。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)8

  • 圖4:弱相關和強相關

如果研究圖4.a和圖4.b之間的差異,你可能會意識到,雖然點的分布非常相似,但每個點到軸的距離不同。如果很多點都(隻)靠近其中一個軸,那麼相關性就會很弱。因此,在我們的方法中,我們要給那些離兩個軸都比較遠的點一個較高的分數,而給那些接近其中一個軸的點一個較低的分數。

用x坐标減去所有x坐标的平均值(x_i-x̄)來計算一個點到x軸的距離,同理可計算到y軸的距離。由于距離不可能是負數,我們通常會取這個差值的絕對值。但是,與x軸和y軸的 "距離 "的符号可以告訴我們,一個點是位于哪個象限。

例如,當一個點位于第一象限時,(x_i-x̄)和(y_i-ȳ)都是正數。如果一個點位于第二象限,(x_i-x̄)将是負的,(y_i-ȳ)是正的。位于第三象限的點都是負的。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)9

  • 圖5:現象分布規律

當取每一個點到坐标軸的x和y的距離的乘積時,會得到一些非常重要的“東西”。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)10

當一個點位于奇數象限時,這個乘積是正的(兩個項的符号相同);當一個點位于偶數象限時,這個乘積是負的(兩個項的符号不同)。如果把所有這些正負值相加,如果大多數點位于偶數象限,那麼結果将是負的,如果大多數點位于奇數象限,則是正的。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)11

由于在正相關的情況下,大多數點位于第一和第三象限,在負相關的情況下,在第二和第四象限,我們也可以用這種方法來計算數據點之間關系的符号。但我們的目标不僅僅是計算符号,而是描述相關性的強度。

如果很多點都接近其中一個軸,那麼相關性将非常弱。因此,當一個點靠近其中一個軸時,公式的輸出應該非常小,而如果一個點離兩個軸都比較遠,則輸出會更大。讓我們看看新公式是否符合這一要求。

當一個點靠近其中一個軸時,(x_i-x̄)或(y_i-ȳ)非常小。因此,這個乘積的結果也會比較小。但是,當一個點離兩個軸更遠時,(x_i-x̄)和(y_i-ȳ)都會很大。相應地,乘積也會很大。

我們可以計算圖6.a和圖6.b的相關系數。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)12

  • 圖6

對于圖6.a,我們發現如下:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)13

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)14

符号解釋:

  • ⇔:當且僅當
  • ∧:和

對于圖6.b,我們發現這樣的情況。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)15

新公式似乎很有效。在這兩種情況下,系數的符号都是正的,确實是這樣的(變量之間的關系在這兩種情況下都是正相關的),而且當兩點距離較近時,輸出值較大(85.11>82.875)。

假設:原來圖6.a和圖6.b中用米作為軸上的單位。現在把這個單位改為毫米,相關系數會突然大很多。這是因為點的X坐标現在會大一千倍。但是,這不應該發生,因為這些點之間的相關性實際上并沒有改變。

這就需要标準差了。因為标準差表示的是點有多麼分散。把(x_i-x̄)與所有x坐标的标準差s_x相除,就得到了該點的所謂z值。這個值表示的是點離平均數x̄有多少标準差。例如,如果平均數是x̄=5,标準差sₓ=3,而點的x坐标x_i=11,z就等于2。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)16

因為标準差的符号總是正的,z的符号隻取決于x_i-x̄的符号。這意味着我們也可以使用x_i和y_的z值的乘積來計算變量之間關系的符号。

現在,真正的問題是:Z是否與軸的單位無關?Z并不表示一個點離中心有多遠,而是表示它離中心有多少個标準差。

如果把點的坐标乘以一千,标準差也會大一千倍。比如說:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)17

因為标準差與坐标軸具有相同的 "單位",一個點離中心的标準差的數始終保持不變。因此,Z與坐标軸的單位無關。

因此,使用z-score使公式與使用的單位無關。新公式現在看起來像這樣:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)18

使用這個公式,圖6.a的相關系數等于10.413,圖6.b的相關系數為13.93。

這個公式仍有一個問題。該公式的輸出取決于數據點的數量。例如,假設在圖6.a中增加了一個x坐标為13、y坐标為8的點,這個點會削弱相關性,因為它根本不在一條可能的直線附近。但是,用目前的公式,我們的相關系數甚至會略有增加。

為了解決這個問題,我們可以從求和中取所有項的平均值。由于我們已經在計算所有的項,隻需要再除以點的數量,即n。确切地說,是n-1,這方面的原因超出了本文的讨論範圍,隻需知道在這種情況下,用n-1除所有項的平均值即可。最終公式便是皮爾遜公式了:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)19

現在,對于圖6.a,r = 0.69;對于圖6.b,r = 0.93。

最小二乘法

在本文的開頭,我向大家介紹了吉諾。吉諾想從散點圖中計算出最适合給定數據點的直線的函數。正如我前面提到的,這個函數的計算被稱為線性回歸

這種回歸背後的方法被稱為最小二乘法。

看一下下面的圖:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)20

  • 圖7:線性回歸

在這個圖上,我們稱每個點的y坐标為y_i,直線上與y_i對應的縱坐标為ŷ_i。y_i稱為y的觀測值,ŷ_i稱為y的預測值。

當畫線時,我們希望從每一個點到線的y距離越小越好。這個距離等于觀察值和預測值之間的差。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)21

這個方程的問題是,當ŷ_i大于y_i時,d是負的。而我們隻想對正值進行處理。為了解決這個問題,我們可以簡單地将差值平方。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)22

這就是 "最小二乘法 "這個名字的由來。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)23

  • 圖8:最小二乘法。

回歸線現在是所有d_i之和最小的那條直線。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)24

這條線的函數如下:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)25

這可以通過數學方法或計算機模拟來證明。

吉諾回歸(Gino’s regression)

現在我們知道如何計算線性回歸了。讓我們試着計算一下1888年比薩斜塔的預期傾斜度。下面是吉諾獲取的數據:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)26

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)27

對于相關系數,計算得出r = 0.995,這是一個非常高的系數。線性回歸肯定是有效的。對于函數,我們計算如下:

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)28

為了确保沒有犯任何錯誤,可以在我們的散點圖上畫出這條線。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)29

看起來很不錯吧?

現在可以用這條線來預測未來的傾斜度。

最小二乘法求回歸方程具體推導(最小二乘法線性回歸背後的數學)30

對于1988年,我們預測的傾斜度為767.8。

最後

這篇文章的目的不是讓你記住很多公式,也不是讓你能夠徒手計算出線性回歸的結果。我主要是想展示某個公式背後的思考過程。線性回歸幾乎總是用計算器或電腦來完成。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved