隻要學習過數據分析,或者對數據分析有一些簡單的了解,比如使用過SPSSAU、SPSS這些統計分析軟件,都知道有回歸分析。按照數學上的定義來看,回歸分析指研究一組随機變量(Y1 ,Y2 ,…,Yi)和另一組(X1,X2,…,Xk)變量之間關系的統計分析方法,又稱多重回歸分析。通常Y1,Y2,…,Yi是因變量,X1、X2,…,Xk是自變量。
其實說簡單點就是研究X對于Y的影響關系,這就是回歸分析。但是,這并不夠呢,看下圖,總共19種回歸(其實還有不單獨列出),這如何區分,到底應該使用哪一種回歸呢,這19種回歸分析有啥區别呢。為什麼會這如此多的回歸分析呢?
一、首先回答下:為什麼會有如此多的回歸分析方法?
在研究X對于Y的影響時,會區分出很多種情況,比如Y有的是定類數據,Y有的是定量數據(如果不懂的童鞋可查看SPSSAU官網幫助手冊),也有可能Y有多個或者1個,同時每種回歸分析還有很多前提條件,如果不滿足則有對應的其它回歸方法進行解決。這也就解決了為什麼會有如此多的回歸分析方法。接下來會逐一說明這19種回歸分析方法。
二、回歸分析按數據類型分類
首先将回歸分析中的Y(因變量)進行數據類型區分,如果是定量且1個(比如身高),通常我們會使用線性回歸,如果Y為定類且1個(比如是否願意購買蘋果手機),此時叫logistic回歸,如果Y為定量且多個,此時應該使用PLS回歸(即偏最小二乘回歸)
線性回歸再細分:如果回歸模型中X僅為1個,此時就稱為簡單線性回歸或者一元線性回歸;如果X有多個,此時稱為多元線性回歸。
Logistic回歸再細分:如果Y為兩類比如0和1(比如1為願意和0為不願意,1為購買和0為不購買),此時就叫二元logistic回歸;如果Y為多類比如1,2,3(比如DELL, Thinkpad, Mac),此時就會多分類logistic回歸;如果Y為多類且有序比如1,2,3(比如1為不願意,2為中立,3為願意),此時可以使用有序logistic回歸。如果Y為兩類時,有時候也會使用二元Probit回歸模型。
除此之外,如果Y為定量且為多個,很多時候會将Y合并概括成1個(比如使用平均值),然後使用線性回歸,反之可考慮使用PLS回歸(但此種情況使用其實較少,PLS回歸模型非常複雜)。
三、深入說明線性因歸模型
我們常見的回歸分析中,線性回歸和logistic回歸最為常見。也是當前研究最多,并且使用最為普遍,以及最為人接受容易理解的研究方法。
尤其是線性回歸,其使用最為成熟,研究最多,而且絕大多數生活現象均可使用線性回歸進行研究,因而結合回歸分析還會多出一些回歸方法;同時回歸分析模型會有很多假定,或者滿足條件,如果不滿足這些假定或者條件就會導緻模型使用出錯,此時就有對應的其它回歸模型出來解決這些問題,因而跟着線性回歸後面又出來很多的回歸。如下圖:
線性回歸是研究X對于Y的影響,如果說有多個X,希望讓模型自動找出有意義的X,此時就可以使用逐步回歸。另外在很一些管理類研究中會涉及到中介作用或者調節作用,此時就可能使用到分層回歸或者分組回歸等。
在進行線性回歸分析時,如果說模型出現共線性問題VIF值很大,此時就可以使用嶺回歸進行解決,嶺回歸的使用較為廣泛,其實還有Lasso回歸也可以解決共線性問題,但是使用非常少而已。
如果數據中有異常值,常見的解決辦法是先把異常值去除掉,但有的時候确實無法去除掉異常值,此時可考慮使用穩健回歸分析模型。
線性回歸的前提是X和Y之間有着線性關系,但有的時候X和Y并不是線性關系,此時就有着曲線回歸和非線性回歸這兩種回歸出來供使用,曲線回歸其實質上是将曲線模型表達式轉換成線性關系表達式進行研究,而非線性回歸較為複雜當然使用也非常少,其和線性回歸完全不是一回事情。以及Poisson回歸(泊松回歸)是指Y符合泊松分布特征時使用的回歸研究模型。
四、其它
除此之外,還有比如加權WLS回歸等,使用較少,不單獨說明。
最後特别說明的一種回歸模型叫Cox回歸,這是醫學研究中使用較多的一種方法,是研究生存影響關系,比如研究抑郁症生存時間,癌症的死亡時間影響關系情況等。
綜上所述,一次性将19種回歸彙總,基本上都可以在SPSSAU上面找到,關于各類回歸方法的使用,以及具體原理,可查看SPSSAU官網,以及可使用SPSSAU上面的案例數據,逐一進行操作分析。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!