1. 變量之間關系可以分為兩類:
函數關系:反映了事務之間某種确定性關系
相關關系:兩個變量之間存在某種依存關系,但二者并不是一一對應的;反映了事務間不完全确定關系;
2. 為什麼要對相關系數進行顯著性檢驗?
實際上完全沒有關系的變量,在利用樣本數據進行計算時也可能得到一個較大的相關系數值(尤其是時間序列數值)
當樣本數較少,相關系數就很大。當樣本量從100減少到40後,相關系數大概率會上升,但上升到多少,這個就不能保證了;取決于你的剔除數據原則,還有這組數據真的可能不存在相關性;
改變兩列數據的順序,不會對相關系數,和散點圖(拟合的函數曲線)造成影響;對兩列數據進行歸一化處理,标準化處理,不會影響相關系數;我們計算的相關系數是線性相關系數,隻能反映兩者是否具備線性關系。相關系數高是線性模型拟合程度高的前提;此外相關系數反映兩個變量之間的相關性,多個變量之間的相關性可以通過複相關系數來衡量;
3. 增加變量個數,R2會增大;P值,F值隻要滿足條件即可,不必追求其值過小;
4. 多重共線性與統計假設檢驗傻傻分不清?
多重共線性與統計假設沒有直接關聯,但是對于解釋多元回歸的結果非常重要。相關系數反應兩個變量之間的相關性;回歸系數是假設其他變量不變,自變量變化一個單位,對因變量的影響,而存在多重共線性(變量之間相關系數很大),就會導緻解釋困難;比如y~x1 x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關系數分析,初步判定是否滿足前提---多重共線性。
5. 時間序列數據會自發呈現完全共線性問題,所以我們用自回歸分析方法;
6. 什麼樣的模型才是一個好模型?
在測試集表現與預測集相當,說明模型沒有過度拟合:在訓練集上表現完美,在測試集上一塌糊塗;原因:模型過于剛性:“極盡曆史規律,考慮随機誤差”;拟合精度不能作為衡量模型方法的标準;
一個好的模型:隻描述規律性的東西(抓住事務的主要特征),存在随機誤差是好事,在預測時,就有了“容錯空間”,預測誤差可能減小!
7. 假設檢驗顯著性水平的兩種理解:
顯著性水平:
通過小概率準則來理解,在假設檢驗時先确定一個小概率标準----顯著性水平;用 表示;凡出現概率小于顯著性水平的事件稱小概率事件;
通過兩類錯誤理解: 為拒絕域面積
8. 中心極限定律與大數定理:
大數定理---正态分布的“左磅”,随着樣本數的增加,樣本的平均值可以估計總體平均值;
中心極限定理---正态分布的“右臂”具有穩定性,大數定理說明大量重複實驗的平均結果具有穩定解決了變量均值的收斂性問題中心極限定理說明随機變量之和逐漸服從某一分布,解決了分布收斂性問題。
9. 方差
方差能最大程度的反映原始數據信息;
反映了一組數據相對于平均數的波動程度,相比于
,其平方項更放大了波動,且差的平方在數學公式推導上有大用。
10. 使用最小二乘法條件:
11. 最大似然估計與最小二乘法區别
12. 關于H0與H1
H0:原假設,零假設----零是相關系數為0,說明兩個變量無關系
H1:備用假設
第一類:原H0是真,卻拒絕原假設;犯
類錯誤
第二類:原H0是假,卻不拒絕原假設;犯
類錯誤
通常隻能犯兩種錯誤中的一種,且
增加,
減少
通常,
類錯誤是可控的,先設法降低第一類錯誤概率
13. 什麼是雙尾檢驗,單尾檢驗?
1)當H0采用等号,而H1采用不等号,雙尾檢驗
2)當H0是有方向性的,單尾檢驗
14. P值
15. T檢驗與U檢驗
16. 方差分析
主要用于兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數分析;
基本思想:通過分析研究不同來源的變異對總體變異的貢獻大小,從而确定可控因素對研究結果影響力的大小;
總變異可以被分解為組間變異與組内變異
17. 直方圖:對數據進行整體描述,突出細節
箱線圖:對數據進行概要描述,或對不同樣本進行比較。箱線圖可以讓我們迅速了解數據的彙集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那麼密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏。)
但是請注意:一個直方圖比1000個p值更重要,拿到數據先繪制散點圖、直方圖、箱線圖看看,再決定用什麼描述!
18. 箱線圖
對于分位數的理解:箱線圖看數據分布特征統計學中,把所有數值由小到大排列并分成四等份,處于三個分割點位置的得分就是四分位數。所以,四分位數有三個!四指四等份!
其中,下四分位數與上四分位數的距離叫四分位距!(IQR)
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關系數分析,初步判定是否滿足前提---多重共線性。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!