散點圖的繪制與解讀、相關系數的概念與特征
用于衡量兩類現象在發展變化的方向與大小方面存在一定的關聯(不包括因果和共變關系)。
1.正線性相關
例如銷售額中涵蓋了銷售利潤和各類成本等,從數據大緻可以看出,銷售利潤随着銷售額的增長而增長,由于各類不确 定因素,數據點基本落在直線周圍,我們稱之為正線性相關。
2.負線性相關
例如通常情況下,某地區的犯罪率越高,則該地區的房價越低,但由于供需環境等其他不确定因素,數據點基本落在直 線周圍,我們稱之為負線性相關。
3.完全線性相關
雖然所有點都在直線上,但是我們不能說兩個變量是函數關系,這是因為我們看到的是樣本,并且我們假設兩個變量是 随機變量,而我們需要推導的是兩個總體的關系。
4.非線性相關
例如雖然網站的點擊量随着網站的廣告投入的增加而增加,但其數據點分布在對數線周圍,呈現出對數相關性。
估計标準誤差與相關系數的關系
一元線性回歸中,對于同一個問題,估計标準誤差就意味着樣本點到回歸線的距離越近,那麼兩個變量的 線性相關性就越強,相關系數越大。
二、相關系數1.相關系數
一般情況下,如果不做特殊說明,指的就是線性相關。 如果相關系數是根據變量的樣本數據計算的,即為了推斷總體,那麼則稱為樣本相關系數(雖然有的時候在部分資料裡 并不嚴格說明),記為 r(有的教材裡也稱為Pearson相關系數)
雖然沒有嚴格的規定,但是我們往往習慣按照下面的方式對相關性強度進行分級:
由于 r 隻是樣本線性相關系數,無論其數值等于多少,我們需要推斷的始終是總體的相關性如何,這時候我們就需要運 用顯著性檢驗的知識了。我們運用R.A.Fisher提出的 t 檢驗方法來檢驗兩個變量總體之間是否存在線性相關關系。
原假設:H0 : ߩ = 0,兩變量間無直線相關關系 檢驗統計量:
适用條件:數據間相互獨立,包括觀測間相互獨立與變量間相互獨立;變量為連續變量(積差相關的條件);兩變量間 的關系是線性的。
2.散點圖提供如下特征:
(1)散點的密集程度,反應相關性的大小;
(2)散點是否具有線性關系,或線性趨勢,還是其 他形式,如果是其他形式是否可以轉換成線性 形式;
(3)線性關系之外是否存在異常值及其存在與線性 趨勢的哪個方向;
(4)數據是否存在稀疏問題。
3.一元線性回歸方程回歸分析的概念和特點
回歸分析能解決什麼問題?
探索影響因變量的可能因素;
利用回歸模型進行預測。
相關與回歸間的關系?
相關分析側重反映散點的疏密程度。
回歸分析側重反映散點的趨勢程度。
三、最小二乘法1.線性回歸的基本過程
四、評價與檢驗
第一步:總平方和分解
第二步:計算判定系數
第三步:殘差标準誤
由于 SSE 是一個求和表達式。樣本越多,SSE 的取值就往往會越大,因此,SSE 并不适合相對 客觀的反映估計值與樣本值的偏離程度,我們需要将 SSE 處理成相對值。于是我們令
,其中 n-2 是自由度。這個公式可以粗略的理解為,通過除以自由度,得到殘差平 方的均值;再開根号則可以将方差轉化成标準差,也成為估計标準誤差。
第四步:線性關系檢驗
線性回歸模型的假設
五、例題精講
1.回歸分析前,哪種數據處理是不合理的( )。 A. 标準化處理
B. 取對數處理
C. 排秩處理
D. 取整處理
答案:CD 解析:标準化可以消除數據規模的影響,對數處理往往可以解決數據正态假設的問題。
2.線性回歸分析主要用于哪種情境( )。
A. 客戶價值評估
B. 貸款違約識别
C. 不同班級在英語得分上是否存在差異
D. 根據用戶特征進行市場細分
答案:A 解析:B項說的是邏輯回歸的内容,C項是方差分析的内容,D項是說聚類分析等 方法。
3.線性回歸假設正确的是( )。
A. 線性:因變量與自變量間的線性關系
B. 正态性:殘差必須服從正态分布
C. 獨立同分布:殘差間相互獨立,且遵循同一分布
D. 正交假定:誤差項與自變量不相關,其期望為0 答案:ABCD 解析:考察線性回歸的基本假設。
4.以下關于線性回歸闡述正确的是( )。
A. 如果我們建立了y關于x的線性回歸方程,那麼我們就可以将y變化的原因歸結于x的變化。
B. 如果我們建立了y關于x的線性回歸方程,在沒有其他信息的情況下,我們隻能說這兩個變量存在線性關系。
C. 如果變量x與y無法建立線性回歸方程,那就說明x和y沒有關系
D. 如果想研究市場規模與市場環境因素的關系,那麼我們就可以以30年的市場規模數據作為因變量y(年化數據), 對應的市場環境數據作為自變量x,建立線性回歸方程(共30個樣本)。
答案:B 解析:A項是把關系當做因果了,C項有可能有别的非線性關系,D項更适合做面闆模型, 線性回歸适合做截面數據。
5.回歸平方和SSR反映了y的總變差中( )。
A. 由于 x 和 y 之間的線性關系引起的 y 的變化部分
B. 除了 x 和 y 之間的線性影響之外的其他因素對 y 變差的影響
C. 由于 x 和 y 之間的非線性關系引起的 y 的變化部分
D. 由于 x 和 y 之間的函數關系引起的 y 的變化部分
答案:A 解析:熟悉SSR、SSE的相關概念。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!