數據分析教材适合在經營投資,研究與開發,生産産品,制造工程,質量管理,服務等領域,分析數據其波動性和規律性,探究影響的主要因素,加以改善和控制,使事物保持向預期健康發展;
現實工程工作中,分析數據的目的:1.鑒别和驗證變量之間相互關系;2. 對影響關鍵指标的自變量進行改善和控制,以達到符合希望的目标結果;實際工作中,相關和回歸分析法可以根據輸入的變化對輸出結果進行預測,從而确定是否對輸入進行調整,即改善和控制自變量,對因變量進行預測和實現);
本節教材主要介紹數值型因變量和數值型之間關系的分析方法-相關與回歸分析。分類方式
從所處理的變量多少分類:1)研究分析兩個變量之間的關系,稱為簡單相關和回歸分析;2)如果研究兩個以上變量之間關系,稱為多元相關和多元回歸分析;
從變量之間關系分類:有線性相關與線性回歸分析及非線性回歸分析;
本節教材主要介紹簡單相關和回歸分析的方法;
一、相關性分析:
1.分析自變量(X)對因變量(Y)的影響,采集到的數據如下:
圖1
2.散布圖分析,由自變量,因變量組成的散布圖10個點坐标:
圖2
圖3
散布圖顯示數據分布呈一條細帶型; 由左下角延伸至右上角;粗略顯示因變量(Y)随自變量(X)增加而增加;
3.相關系數(r)來描述變量(X)與Y之間線性相關程度的參數;可以精确量化x和y的相互關系。公式不再贅述,直接分析;
圖4
相關系數r=0.914>0.8, 可以視為自變量(x)和因變量(y)高度相關;
顯示顯著水平P值 p-value=0.000<0.05, 因此x和y之間存在相關關系;
二 、回歸分析:
至此,可以小結确定變量間的相關性及相關程度;但是,在解決實際問題時,僅做到這一步還不夠;分析的目的是發現主要因素并找到其影響規律;随着關鍵少數因子(X)的變化,因變量(Y)如何變化,對應于x的變化量,y的變化量為多少?回歸分析就是用來定量分析變量x和因變量y間關系的方法。通過回歸分析可以将研究分析的變量轉換成用方程來表示x和y的關系式;使用回歸分析可以自衆多的變量篩選出潛在的少數x;對y進行預測和優化;以及确定對應于y的最優值的x的區間;
1.一元線性回歸方程,y=ax b έ (a,b稱為回歸系數,έ是模型的誤差項,代表随機誤差);為簡化講解過程,使用回歸模塊分析圖1變量間關系:
圖5
圖6 回歸-選項
圖7
自以上輸出可知以下結論:
1) 得到回歸方程:Y=-25.7 40.8X;
2)回歸方程的顯著項:本例常數項和系數均為顯著項;
3)R平方和R平方(adj):這兩個參數表示回歸方程可以解釋的變差占總變差的百分比,本例為83.5%;可能還存在其他因素的影響;
4)回歸方程的方差分析結果:本例P值<0.05, 因此以95%的置信度認為回歸方程拟合良好;
5)得到Y的預測值,預測區間(95.0%CI)和置信區間(95.0%PI);
三 、殘差分析:
殘差分析是建立在前面回歸分析的基礎之上
圖8
1.殘差正态分布圖:樣本數太少,僅供參考;
2.殘差直方圖:本例僅供參考!要自直方圖得出結論,樣本數需30個以上,才能進行分析;
3.殘差(與拟合值)圖:呈抛物線狀,說明x和y之間有非線性相關關系;因數據量太小,後續介紹二次非線性方程來拟合時進行講解;
4.殘差(與順序)控制圖:控制界限是殘差e /-3sigma,無超出點,說明無異常
四 、圖示回歸分析結果:
圖9
1.回歸方程:Y=-25.66 40.83X;
2.中間一條直線表示回歸方程的拟合值;
3.緊靠直線的兩條虛線代表拟合值均值在95%置信度下的置信區間;
4.最靠外的兩條畫線代表拟合值在95%置信度下的預測區間;
後續,在數據分析教材,将介紹非線性相關關系和一元非線性相關回歸分析,多元線性回歸和非線性回歸分析。希望對您的學習和工作有幫助。
教材編制辛苦,請您點贊并轉發,讓更多學習者使用。非常感謝!
作者:關中老玉米
日期:2020年12月20日
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!