本文字數為10000字,閱讀全文約需25分鐘
本文為回歸分析學習筆記。
前言
1.“回歸”一詞的由來
我們不必在“回歸”一詞上費太多腦筋。英國著名統計學家弗朗西斯·高爾頓(Francis Galton,1822—1911)是最先應用統計方法研究兩個變量之間關系問題的人。“回歸”一詞就是由他引入的。他對父母身高與兒女身高之間的關系很感興趣,并緻力于此方面的研究。高爾頓發現,雖然有一個趨勢:父母高,兒女也高;父母矮,兒女也矮,但從平均意義上說,給定父母的身高,兒女的身高卻趨同于或者說回歸于總人口的平均身高。換句話說,盡管父母雙親都異常高或異常矮,兒女身高并非也普遍地異常高或異常矮,而是具有回歸于人口總平均高的趨勢。更直觀地解釋,父輩高的群體,兒輩的平均身高低于父輩的身高;父輩矮的群體,兒輩的平均身高高于其父輩的身高。用高爾頓的話說,兒輩身高的“回歸”到中等身高。這就是回歸一詞的最初由來。
1.回歸分析方法
1)線性回歸
線性回歸它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的少數幾種技術之一。在該技術中,因變量是連續的,自變量(單個或多個)可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的拟合直線(也就是回歸線)建立因變量 (Y) 和一個或多個自變量 (X) 之間的聯系。用一個等式來表示它,即:
Y=a b*X e
其中a 表示截距,b 表示直線的傾斜率,e 是誤差項。這個等式可以根據給定的單個或多個預測變量來預測目标變量的值。
一元線性回歸和多元線性回歸的區别在于,多元線性回歸有一個以上的自變量,而一元線性回歸通常隻有一個自變量。
線性回歸要點:
1)自變量與因變量之間必須有線性關系;
2)多元回歸存在多重共線性,自相關性和異方差性;
3)線性回歸對異常值非常敏感。它會嚴重影響回歸線,最終影響預測值;
4) 多重共線性會增加系數估計值的方差,使得估計值對于模型的輕微變化異常敏感,結果就是系數估計值不穩定;
5)在存在多個自變量的情況下,我們可以使用向前選擇法,向後剔除法和逐步篩選法來選擇最重要的自變量。
2)logistic回歸
Logistic回歸可用于發現 “事件=成功”和“事件=失敗”的概率。當因變量的類型屬于二元(1 / 0、真/假、是/否)變量時,我們就應該使用邏輯回歸。這裡,Y 的取值範圍是從 0 到 1,它可以用下面的等式表示:
odds= p/ (1-p) = 某事件發生的概率/ 某事件不發生的概率
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0 b1X1 b2X2 b3X3.... bkXk
如上,p表述具有某個特征的概率。在這裡我們使用的是的二項分布(因變量),我們需要選擇一個最适用于這種分布的連結函數。它就是Logit 函數。在上述等式中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。
Logistic要點:
1)Logistic回歸廣泛用于分類問題;
2)Logistic回歸不要求自變量和因變量存在線性關系。它可以處理多種類型的關系,因為它對預測的相對風險指數使用了一個非線性的 log 轉換;
3)為了避免過拟合和欠拟合,我們應該包括所有重要的變量。有一個很好的方法來确保這種情況,就是使用逐步篩選方法來估計Logistic回歸;
4)Logistic回歸需要較大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差;
5) 自變量之間應該互不相關,即不存在多重共線性。然而,在分析和建模中,我們可以選擇包含分類變量相互作用的影響;
6)如果因變量的值是定序變量,則稱它為序Logistic回歸;
7)如果因變量是多類的話,則稱它為多元Logistic回歸。
3)Cox回歸
Cox回歸的因變量就有些特殊,它不經考慮結果而且考慮結果出現時間的回歸模型。它用一個或多個自變量預測一個事件(死亡、失敗或舊病複發)發生的時間。Cox回歸的主要作用發現風險因素并用于探讨風險因素的強弱。但它的因變量必須同時有2個,一個代表狀态,必須是分類變量,一個代表時間,應該是連續變量。隻有同時具有這兩個變量,才能用Cox回歸分析。Cox回歸主要用于生存資料的分析,生存資料至少有兩個結局變量,一是死亡狀态,是活着還是死亡;二是死亡時間,如果死亡,什麼時間死亡?如果活着,從開始觀察到結束時有多久了?所以有了這兩個變量,就可以考慮用Cox回歸分析。
4)poisson回歸
通常,如果能用Logistic回歸,通常也可以用poission回歸,poisson回歸的因變量是個數,也就是觀察一段時間後,發病了多少人或是死亡了多少人等等。其實跟Logistic回歸差不多,因為logistic回歸的結局是是否發病,是否死亡,也需要用到發病例數、死亡例數。
5)Probit回歸
Probit回歸意思是“概率回歸”。用于因變量為分類變量數據的統計分析,與Logistic回歸近似。也存在因變量為二分、多分與有序的情況。目前最常用的為二分。醫學研究中常見的半數緻死劑量、半數有效濃度等劑量反應關系的統計指标,現在标準做法就是調用Pribit過程進行統計分析。
6)負二項回歸
所謂負二項指的是一種分布,其實跟poission回歸、logistic回歸有點類似,poission回歸用于服從poission分布的資料,logistic回歸用于服從二項分布的資料,負二項回歸用于服從負二項分布的資料。如果簡單點理解,二項分布可以認為就是二分類數據,poission分布就可以認為是計數資料,也就是個數,而不是像身高等可能有小數點,個數是不可能有小數點的。負二項分布,也是個數,隻不過比poission分布更苛刻,如果結局是個數,而且結局可能具有聚集性,那可能就是負二項分布。簡單舉例,如果調查流感的影響因素,結局當然是流感的例數,如果調查的人有的在同一個家庭裡,由于流感具有傳染性,那麼同一個家裡如果一個人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數據盡管結果是個數,但由于具有聚集性,因此用poission回歸不一定合适,就可以考慮用負二項回歸。
7)weibull回歸
中文有時音譯為威布爾回歸。關于生存資料的分析常用的是cox回歸,這種回歸幾乎統治了整個生存分析。但其實夾縫中還有幾個方法在頑強生存着,而且其實很有生命力。weibull回歸就是其中之一。cox回歸受歡迎的原因是它簡單,用的時候不用考慮條件(除了等比例條件之外),大多數生存數據都可以用。而weibull回歸則有條件限制,用的時候數據必須符合weibull分布。如果數據符合weibull分布,那麼直接套用weibull回歸自然是最理想的選擇,它可以給出最合理的估計。如果數據不符合weibull分布,那如果還用weibull回歸,那就套用錯誤,結果也就會缺乏可信度。weibull回歸就像是量體裁衣,把體形看做數據,衣服看做模型,weibull回歸就是根據某人實際的體形做衣服,做出來的也就合身,對其他人就不一定合身了。cox回歸,就像是到商場去買衣服,衣服對很多人都合适,但是對每個人都不是正合适,隻能說是大緻合适。至于到底是選擇麻煩的方式量體裁衣,還是選擇簡單到商場直接去買現成的,那就根據個人傾向,也根據具體對自己體形的了解程度,如果非常熟悉,自然選擇量體裁衣更合适。如果不大了解,那就直接去商場買大衆化衣服相對更方便些。
8)主成分回歸
主成分回歸是一種合成的方法,相當于主成分分析與線性回歸的合成。主要用于解決自變量之間存在高度相關的情況。這在現實中不算少見。比如要分析的自變量中同時有血壓值和血糖值,這兩個指标可能有一定的相關性,如果同時放入模型,會影響模型的穩定,有時也會造成嚴重後果,比如結果跟實際嚴重不符。當然解決方法很多,最簡單的就是剔除掉其中一個,但如果實在舍不得,覺得删了太可惜,那就可以考慮用主成分回歸,相當于把這兩個變量所包含的信息用一個變量來表示,這個變量我們稱它叫主成分,所以就叫主成分回歸。當然,用一個變量代替兩個變量,肯定不可能完全包含他們的信息,能包含80%或90%就不錯了。但有時候我們必須做出抉擇,你是要100%的信息,但是變量非常多的模型?還是要90%的信息,但是隻有1個或2個變量的模型?打個比方,你要診斷感冒,是不是必須把所有跟感冒有關的症狀以及檢查結果都做完?還是簡單根據幾個症狀就大緻判斷呢?我想根據幾個症狀大緻能确定90%是感冒了,不用非得100%的信息不是嗎?模型也是一樣,模型是用于實際的,不是空中樓閣。既然要用于實際,那就要做到簡單。對于一種疾病,如果30個指标能夠100%确診,而3個指标可以診斷80%,我想大家會選擇3個指标的模型。這就是主成分回歸存在的基礎,用幾個簡單的變量把多個指标的信息綜合一下,這樣幾個簡單的主成分可能就包含了原來很多自變量的大部分信息。這就是主成分回歸的原理。
9)嶺回歸
當數據之間存在多重共線性(自變量高度相關)時,就需要使用嶺回歸分析。在存在多重共線性時,盡管最小二乘法(OLS)測得的估計值不存在偏差,它們的方差也會很大,從而使得觀測值與真實值相差甚遠。嶺回歸通過給回歸估計值添加一個偏差值,來降低标準誤差。
上面,我們看到了線性回歸等式:
y=a b*x
這個等式也有一個誤差項。完整的等式是:
y=a b*x e (誤差項), [誤差項是用以糾正觀測值與預測值之間預測誤差的值]
=> y=a y= a b1x1 b2x2 .... e, 針對包含多個自變量的情形。
在線性等式中,預測誤差可以劃分為 2 個分量,一個是偏差造成的,一個是方差造成的。預測誤差可能會由這兩者或兩者中的任何一個造成。在這裡,我們将讨論由方差所造成的誤差。嶺回歸通過收縮參數 λ(lambda)解決多重共線性問題。請看下面的等式:
在這個等式中,有兩個組成部分。第一個是最小二乘項,另一個是 β2(β-平方)和的 λ 倍,其中 β 是相關系數。λ 被添加到最小二乘項中用以縮小參數值,從而降低方差值。
嶺回歸要點:
1)除常數項以外,嶺回歸的假設與最小二乘回歸相同;
2) 它收縮了相關系數的值,但沒有達到零,這表明它不具有特征選擇功能;
3)這是一個正則化方法,并且使用的是 L2 正則化。
10)偏最小二乘回歸
偏最小二乘回歸也可以用于解決自變量之間高度相關的問題。但比主成分回歸和嶺回歸更好的一個優點是,偏最小二乘回歸可以用于例數很少的情形,甚至例數比自變量個數還少的情形。所以,如果自變量之間高度相關、例數又特别少、而自變量又很多,那就用偏最小二乘回歸就可以了。它的原理其實跟主成分回歸有點像,也是提取自變量的部分信息,損失一定的精度,但保證模型更符合實際。因此這種方法不是直接用因變量和自變量分析,而是用反映因變量和自變量部分信息的新的綜合變量來分析,所以它不需要例數一定比自變量多。偏最小二乘回歸還有一個很大的優點,那就是可以用于多個因變量的情形,普通的線性回歸都是隻有一個因變量,而偏最小二乘回歸可用于多個因變量和多個自變量之間的分析。因為它的原理就是同時提取多個因變量和多個自變量的信息重新組成新的變量重新分析,所以多個因變量對它來說無所謂。
11)多項式回歸
對于一個回歸等式,如果自變量的指數大于1,那麼它就是多項式回歸等式。如下等式所示:
y=a b*x^2
在這種回歸技術中,最佳拟合線不是直線。而是一個用于拟合數據點的曲線。
多項式回歸要點:
1)雖然存在通過高次多項式得到較低的錯誤的趨勢,但這可能會導緻過拟合。需要經常畫出關系圖來查看拟合情況,并确保拟合曲線正确體現了問題的本質。下面是一個圖例,可以幫助理解:
2)須特别注意尾部的曲線,看看這些形狀和趨勢是否合理。更高次的多項式最終可能産生怪異的推斷結果。
12)逐步回歸
該回歸方法可用于在處理存在多個自變量的情形。在該技術中,自變量的選取需要借助自動處理程序,無須人為幹預。通過觀察統計的值,如 R-square、t-stats和 AIC 指标,來識别重要的變量,可以實現這一需求。逐步回歸通過同時添加/去除基于指定标準的協變量來拟合模型。下面列出了一些最常用的逐步回歸方法:
1)标準逐步回歸法需要做兩件事情,即根據需要為每個步驟添加和删除預測因子;
2)向前選擇法從模型中最重要的預測因子開始,然後為每一步添加變量;
3)向後剔除法從模型中所有的預測因子開始,然後在每一步删除重要性最低的變量。
這種建模技術的目的是使用最少的預測因子變量來最大化預測能力。這也是處理高維數據集的方法之一。
13)套索回歸
與嶺回歸類似,套索也會對回歸系數的絕對值添加一個罰值。此外,它能降低偏差并提高線性回歸模型的精度。看看下面的等式:
套索回歸與嶺回歸有一點不同,它在懲罰部分使用的是絕對值,而不是平方值。這導緻懲罰(即用以約束估計的絕對值之和)值使一些參數估計結果等于零。使用的懲罰值越大,估計值會越趨近于零。這将導緻我們要從給定的n個變量之外選擇變量。
套索回歸要點:
1)除常數項以外,這種回歸的假設與最小二乘回歸類似;
2)它将收縮系數縮減至零(等于零),這确實有助于特征選擇;
3)這是一個正則化方法,使用的是 L1 正則化;
4)如果一組預測因子是高度相關的,套索回歸會選出其中一個因子并且将其它因子收縮為零。
14)ElasticNet 回歸
ElasticNet 回歸是套索回歸和嶺回歸的組合體。它會事先使用 L1 和 L2 作為正則化矩陣進行訓練。當存在多個相關的特征時,Elastic-net 會很有用。嶺回歸一般會随機選擇其中一個特征,而 Elastic-net 則會選擇其中的兩個。同時包含嶺回歸和套索回歸的一個切實的優點是,ElasticNet 回歸可以在循環狀态下繼承嶺回歸的一些穩定性。
ElasticNet 回歸要點:
1)在高度相關變量的情況下,它會産生群體效應;
2)選擇變量的數目沒有限制;
3)它可以承受雙重收縮。
2.如何選擇回歸模型
當隻了解一兩種回歸技術的時候,情況往往會比較簡單。然而,當我們在應對問題時可供選擇的方法越多,選擇正确的那一個就越難。類似的情況下也發生在回歸模型中。
掌握多種回歸模型時,基于自變量和因變量的類型、數據的維數以及數據的其它基本特征去選擇最合适的技術非常重要。以下是要選擇正确的回歸模型時需要考慮的主要因素:
1)數據探索是構建預測模型的不可或缺的部分。在選擇合适的模型前,比如識别變量的關系和影響,應該首先執行這一步驟。
2)比較不同模型的拟合優點,我們可以分析不同的指标參數,如統計意義的參數,R-square,調整 R-square,AIC,BIC以及誤差項,另一個是 Mallows’ Cp 準則。這個主要是通過将所選的模型與所有可能的子模型(或仔細挑選的一組模型)進行對比,檢查可能出現的偏差。
3)交叉驗證是評估預測模型最好的方法。使用該方法,需将數據集分成兩份(一份用于訓練,一份用于驗證)。使用觀測值和預測值之間的均方差即可快速衡量預測精度。
4)如果數據集中存在是多個混合變量,那就不應選擇自動模型選擇方法,因為我們并不願意将所有變量同時放在同一個模型中。
5)所選擇的回歸技術也取決于你的目的。可能會出現這樣的情況,一個不太強大的模型與具有高度統計學意義的模型相比,更易于實現。
6) 回歸正則化方法(套索,嶺和ElasticNet)在高維數據和數據集變量之間存在多重共線性的情況下運行良好。
診斷回歸分析結果為了理解、解釋、預測某個問題,我們會進行回歸分析。但事實上,選擇一組優質的自變量并不是那麼容易。通常我們會根據一些常識、理論基礎、某些研究、專家的意見、參考文獻等等選擇一組自變量,來進行自變量的篩選。因此,我們需要診斷回歸分析的質量——回歸分析的結果診斷。
1.自變量與因變量是否具有預期的關系
每個自變量都會有一個系數,系數具有 /-号,來表示自變量與因變量的關系。從工具的得到的報告中,我們看到的系數的正負,每個自變量應該是我們期望的關系。如果有非常不符合邏輯的系數,我們就應該考慮剔除它了。
當然,有時也可能得到與常識不同的結論。舉個例子,假如我們在研究森林火災,我們通常認為降雨充沛的區域火災的發生率會相對較低,也就是所謂的負相關,但是,這片森林火災頻發的原因可能是閃電雷擊,這樣降雨量這個自變量可能就不是常識中的負相關的關系了。
因此,我們除了驗證自變量的系數與先驗知識是否相符外,還有繼續結合其他項檢查繼續診斷,從而得出更可靠的結論。
2.自變量對模型是否有幫助
自變量對模型有無幫助說的就是自變量是否有顯著性。那如何了解這些自變量是否有顯著性呢?
如果自變量的系數為零(或非常接近零),我們認為這個自變量對模型沒有幫助,統計檢驗就用來計算系數為零的概率。如果統計檢驗返回一個小概率值(p值),則表示系數為零的概率很小。如果概率小于0.05,彙總報告上概率(Probability) 旁邊的一個 星号(*) 表示相關自變量對模型非常重要。換句話說,其系數在95%置信度上具有統計顯著性。
利用空間數據在研究區域内建模的關系存在差異是非常常見的,這些關系的特征就是不穩定。我們就需要通過 穩健概率(robust probability) 了解一個自變量是否具有統計顯著性。
3.殘差是否有空間聚類
殘差在空間上應該是随機分布的,而不應該出現聚類。這項檢查我們可以使用 空間自相關工具(Spatial Autocorrelation Tool)工具進行檢查。
4.模型是否出現了傾向性
我們常說,不要戴着“有色眼鏡”看人。同樣,回歸分析模型中,也不要帶有“成見”,不能具有傾向性,否則,這不是個客觀合理的模型。
我們都知道正态分布是個極好的分布模式,如果我們正确的構建了回歸分析模型,那麼模型的殘差會符合完美的正态分布,其圖形為鐘形曲線。
當模型出現偏差時,可能我們看到的圖形也是詭異的,這樣我們就無法完全信任所預測的結果。
5.自變量中是否存在冗餘
在我們建模的過程中,應盡量去選擇表示各個不同方面的自變量,也就是盡量避免傳達相同或相似信息的自變量。要清楚,引入了冗餘變量的模型是不足以信任的。
6.評估模型的性能
最後需要做的是,評估模型的性能。 矯R2值是評估自變量對因變量建模的重要度量。
這項檢查應該放到最後。一旦我們通過了前面的所有檢驗,接下來就可以進行評估矯正R2值。
R2值的範圍介于0和1之間,以百分比形式表示。假設正在為犯罪率建模,并找到一個通過之前所有五項檢查的模型,其校正 R2 值為0.65。這樣就可以了解到模型中的自變量說明犯罪率是65%。在有些科學領域,能夠解釋複雜現象的 23% 就會讓人興奮不已。在其他領域,一個R2值可能需要更靠近80%或90%才能引起别人的注意。不管采用哪一種方式,校正R2值都會幫我們判斷自己模型的性能。
另一項輔助評估模型性能的重要診斷是修正的Akaike信息準則/Akaike’sinformation criterion (AIC)。AIC值是用于比較多個模型的一項有用度量。例如,可能希望嘗試用幾組不同的自變量為學生的分數建模。在一個模型中僅使用人口統計變量,而在另一個模型選擇有關學校和教室的變量,如每位學生的支出和師生比。隻要所有進行比較的模型的因變量(在本示例中為學生測試分數)相同,我們就可以使用來自每個模型的 AIC值确定哪一個的表現更好。模型的AIC值越小,越适合觀測的數據。
回歸設計常用軟件目前,用于回歸設計的統計軟件較多,無論是對回歸方案設計,還是對試驗數據處理和回歸設計成果的應用分析,都有相應的軟件支撐,或是自編自用的專業軟件,或是具有商業性質的統計軟件包,多種多樣,各有特色。為了便于回歸設計的更好應用,這裡簡要地介紹挑選或評價統計軟件的基本思考以及幾種回歸設計常用的統計軟件,以利相關人員簡捷地選用。
1.統計軟件的選用原則
在挑選或評價統計軟件時,應從以下幾個方面加以考慮:
1)可用性
一個軟件如果能為用戶提供良好的用戶界面、靈活的處理方式和簡明的語句或命令,就稱這個軟件可用性強。随着統計軟件在可用性方面的不斷進步,很多統計軟件的語法規則簡明、靈活、學用方便,這是人們非常歡迎的。
2)數據管理
數據錄人、核查、修改、轉換和選擇,統稱為數據管理。好的軟件,如SAS( statistical analysis system),SPSS(statistical package for thesocial science) 等的數據管理功能已近似大衆化的數據庫軟件。統計軟件與數據庫軟件之間建立接口,使數據管理不斷深人,用起來非常方便。
3)文件管理
數據文件、程序文件、結果文件等一些文件的建立、存取、修改、合并等,統稱為文件管理。它的功能越強,操作就越簡單,越方便。由于操作系統本身文件管理功能較強。因此,從統計軟件直接調用操作系統的命令可大大增強其文件管理功能。現在好的統計軟件已設計了這類調用指令。
4)統計分析
統計分析是統計軟件的核心。統計分析方法的計算機程序的數量和種類決定了數據處理的深度。有些軟件,如SAS,BMDP( biomedical computer programs)等。所包括的分析過程,足夠科研與管理之需。由于統計量的選擇,參數估計的方法等是多種多樣的,用戶往往希望統計分析過程盡可能多地提供選項,這樣可以提高統計分析的靈活性和深度。
5)容量
盡管處理的數據量與計算機硬件有直接關系,然而,軟件的設計和程序編寫技巧仍起很大作用。軟件好,在一定程度上可以彌補硬件的不足,而低水平的軟件會浪費很好的硬件配置。通常,統計軟件應至少能同時進行不小于10個變量的上千個數據點的分析、綜合、對比與預測。
2.SAS軟件系統
SAS軟件系統于20世紀70年代由美國SAS研究所開發。SAS軟件是用于決策支援的大型集成資訊系統,但該軟件系統最早的功能限于統計分析;至今,統計分析功能也仍是它的重要模組和核心功能。SAS已經遍布全世界,重要應用領域涵蓋政府的經濟決策與企業的決策支援應用等,使用的單位遍及金融、醫藥衛生、生産、運輸、通訊、科學研究、政府和教育等領域;在資料處理和統計分析領域,SAS系統被譽統計軟件界的巨無霸。
SAS 是一個模塊化、集成化的大型應用軟件系統。它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等。 SAS系統基本上可以分為四大部分:SAS數據庫部分;SAS分析核心;SAS開發呈現工具;SAS對分布處理模式的支持及其數據倉庫設計。 SAS系統主要完成以數據為中心的四大任務:數據訪問;數據管理;數據呈現;數據分析。
SAS 是由大型機系統發展而來,其核心操作方式就是程序驅動,經過多年的發展,現在已成為一套完整的計算機語言,其用戶界面也充分體現了這一特點:它采用MDI (多文檔界面),用戶在PGM視窗中輸入程序,分析結果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶可以完成所有需要做的工作,包括統計分析、預測、建模和模拟抽樣等。但是,這使得初學者在使用SAS時必須要學習SAS語言,入門比較困難。
3.Excel軟件
在回歸設計的實踐中,一些計算機軟件可以解決多元回歸分析的求解問題,但常常是數據的輸入和軟件的操作運用要經過專門訓練。Excel軟件為回歸分析的求解給出了非常方便的操作過程,而且目前Excel軟件幾乎在每台計算機上都已經安裝。
Excel是一個面向商業、科學和工程計算的數據分析軟件,它的主要優點是具有對數據進行分析、計算、彙總的強大功能。除了衆多的函數功能外,Excel的高級數據分析工具則給出了更為深入、更為有用、針對性更強的各類經營和科研分析功能。高級數據分析工具集中了Excel最精華、對數據分析最有用的部分,其分析工具集中在Excel主菜單中的“工具”子菜單内,回歸分析便為其中之一。
Excel是以電子表格的方式來管理數據的,所有的輸入、存取、提取、處理、統計、模型計算和圖形分析都是圍繞電子表格來進行的。
4.Statistica軟件
Statistica是由統計軟件公司(Statsoft)開發、專用于科技及工業統計的大型軟件包。它除了具有常規的統計分析功能外,還包括有因素分析、質量控制、過程分析、回歸設計等模塊。利用其回歸設計模塊可以進行回歸正交設計、正交旋轉組合設計、正交多項式回歸設計、A最優及D最優設計等。該軟件包還可以進行對試驗結果的統計檢驗、誤差分析、試驗水平估計和各類統計圖表、曲線、曲面的分析計算工作。
5.SPSS軟件
SPSS是世界上最早采用圖形菜單驅動界面的統計軟件,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它将幾乎所有的功能都以統一、規範的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。用戶隻要掌握一定的Windows操作技能,精通統計分析原理,就可以使用該軟件為特定的科研工作服務。SPSS采用類似EXCEL表格的方式輸入與管理數據,數據接口較為通用,能方便的從其他數據庫中讀入數據。其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對于熟悉老版本編程運行方式的用戶,SPSS還特别設計了語法生成窗口,用戶隻需在菜單中選好各個選項,然後按"粘貼"按鈕就可以自動生成标準的SPSS程序。極大的方便了中、高級用戶。
6.R軟件
R語言是統計領域廣泛使用的,誕生于1980年左右的S語言的一個分支。 R語言是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。
R是一套完整的數據處理、計算和制圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能。
與其說R是一種統計軟件,還不如說R是一種數學計算的環境,因為R并不是僅僅提供若幹統計程序、使用者隻需指定數據庫和若幹參數便可進行一個統計分析。R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。
R是一個免費的自由軟件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免費下載和使用的。在R主頁那兒可以下載到R的安裝程序、各種外挂程序和文檔。在R的安裝程序中隻包含了8個基礎模塊,其他外在模塊可以通過CRAN獲得。
學習資料
1.書籍
1)《實用回歸分析》(何曉群)
該書從數據出發,不是從假設、定理出發;從歸納出發,不是從演繹出法;強調案例分析;重統計思想的闡述,弱化數學證明的推導。
2)《應用多元統計分析》(高惠璇)
書中介紹了各種常用的多元統計分析方法的統計背景和實際意義,說明該方法的統計思想、數學原理及解題步驟,還列舉了各方面的應用實例。該書将多元統計方法的介紹與在計算機上實現這些方法的統計軟件(SAS系統)結合起來,不僅可以學到統計方法的理論知識,還知道如何解決實際問題。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!