對統計學基本概念的梳理,其中普通字體為賈俊平著《統計學(第六版)》中的重要概念,引用字體的内容為書中沒有标注為重要概念的較為重要的補充,批注為我依據所學知識的補充。
變量之間的關系可以分為兩種類型,即函數關系和相關關系。
函數關系 functional relationship
函數關系是一一對應的确定關系。設有兩個變量x和y,變量y随變量x一起變化,并完全依賴于x,當變量x取某個數值時,y依确定的關系取相應的值,則稱y是x的函數,其中x稱為自變量,y稱為因變量。
相關關系 correlation
由于影響一個變量的因素非常多,造成了變量之間關系的不确定性。變量之間存在的不确定的數量關系,稱為相關關系。相關關系具有如下特點:一個變量的取值不能由另一個變量唯一确定,當變量x取某個值時,變量y的取值可能有幾個。對這種關系不确定的變量顯然不能用函數關系進行描述,但也不是無任何規律可循。通過對大量數據的觀察與研究,就會發現許多變量之間确實存在着一定的客觀規律。
散點圖 scatter diagram
對于兩個bianliangx和y,通過觀察或實驗可以得到若幹組數據,記為(xi,yi)(i=1,2,…,n)。用坐标的橫軸代表變量x,縱軸代表變量y,每組數據(xi,yi)在坐标系中用一個點表示,n組數據在坐标系中形成的n個點稱為散點,由坐标及其散點形成的二維數據圖稱為散點圖。散點圖是描述變量之間關系的一種直觀方法,從中可以大體上看出變量之間的關系形态及關系強度。
相關系數 correlation coefficient
相關系數是根據樣本數據計算的量度兩個變量之間線性關系強度的統計量。若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為ρ;若根據樣本數據計算的,則稱為樣本相關系數,記為r。
線性相關系數 linear correlation coefficient / Pearson相關系數 Pearson's correlation coefficient
使用樣本相關系數的計算公式計算的相關系數即為線性相關系數【批:線性相關系數是雙變量的相關系數,用以衡量兩個變量之間的相關程度】,其公式為:
回歸分析 regression analysis
(相關分析的目的在于測量變量之間的關系強度,它所使用的測量工具就是相關系數。)回歸分析側重于考量變量之間的數量關系,并通過一定的數學表達式将這種關系描述出來,進而确定一個或幾個變量(自變量)的變化對另一個特定變量(因變量)的影響程度。具體來說,回歸分析主要解決以下幾個方面的問題:
- 從一組樣本數據出發,确定變量之間的數學關系式。
- 對這些關系式的可信程度進行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的。
- 利用所求的關系式,根據一個或幾個變量的取值來估計或預測兩一個特定變量的取值,并給出這種估計或預測的可靠程度。
因變量 dependent variable
在回歸分析中,被預測或被解釋的變量稱為因變量,用y表示。
自變量 independent variable
在回歸分析中,用來預測或解釋因變量的一個或多個變量稱為自變量,用x表示。
回歸模型 regression model
對于具有線性關系的兩個變量,可以用一個線性方程來表示它們之間的關系。描述因變量y如何依賴于自變量x和誤差項ε的方程稱為回歸模型。隻涉及一個自變量的一元線性回歸模型可表示為:
y=β0 β1x ε
上式稱為理論回歸模型,對這一模型,有以下幾個主要假定:
- 因變量y與自變量x之間具有線性關系。【批:因為一元線性回歸模型隻能用來預測兩個變量之間的線性相關關系】
- 在重複抽樣中,自變量x的取值是固定的,即假定x是非随機的。【批:即任意給定的x值都是可以取到的;對于任意一個給定的x值,y的取值都對應着一個分布】
- 誤差項ε是一個期望值為0的随機變量,即E(ε)=0。【批:如果ε的期望值不為0的話,則說明該回歸模型不是無偏估計,即該模型存在偏差】
- 對于所有的x值,ε的方差σ^2都相同。【批:這是模型的一個假定,在計算誤差項ε的标準差σ的估計(估計标準誤差)時,也是在依據假定的前提下計算的;當不同的x值對應的誤差項ε的方差σ^2各不相同時,我們稱之為非常數方差】
- 誤差項ε是一個服從正态分布的随機變量,且獨立,即ε~N(0,σ^2)。
回歸方程 regression equation
根據回歸模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0 β1x,也就是說,y的期望值是x的線性函數。描述因變量y的期望值如何依賴于自變量x的方程稱為回歸方程。一元線性回歸方程的形式為:
E(y)=β0 β1x
一元線性回歸方程的圖示是一條直線,因此也稱為直線回歸方程。其中β0是回歸直線在y軸上的截距,是當x=0時y的期望值;β1是直線的斜率,它表示x每變動一個單位時,y的平均變動值。
最小二乘法 / 最小平方法 method of least squares
高斯提出用最小化圖中垂直方向的離差平方和來估計參數β0和β1,根據這一方法确定模型參數β0和β1的方法稱為最小二乘法,它是通過使因變量的觀測值yi與yi的估計值之間的離差平方和達到最小來估計β0和β1的方法。
拟合優度 goodness of fit
回歸直線與各觀測點的接近程度稱為回歸直線對數據的拟合優度。
判定系數 coefficient of determination
判定系數是對估計的回歸方程拟合優度的度量,為回歸平方和占總平方和的比例,記為R^2,其計算公式為:
估計标準誤差 standard error of estimate
估計标準誤差是衡量各實際觀測點在直接周圍的散布狀況的一個統計量,它是均方殘差(MSE)的平方根,用se來表示,其計算公式為:
預測 predict
回歸模型經過各種檢驗并标明符合規定的要求後,就可以利用它來預測因變量了。所謂預測是指通過自變量x的取值來預測因變量y的取值。
點估計 point estimate
【此處為在回歸分析中的定義,其他參見:第7章 參數估計】利用估計的回歸方程,對于x的一個特定值x0,求出y的一個估計值就是點估計。點估計可分為兩種:一是平均值的點估計,二是個别之的點估計。
區間估計 point estimate
【此處為在回歸分析中的定義,其他參見:第7章 參數估計】利用估計的回歸方程,對于x的一個特定值x0,求出y的一個估計值的區間就是區間估計。區間估計也有兩種類型,一是置信區間估計,二是預測區間估計。
置信區間估計 confidence interval estimate
(回歸分析中的)置信區間估計是對x的一個給定值x0,求出y的平均值的區間估計,這一區間稱為置信區間。
預測區間估計 prediction interval estimate
(回歸分析中的)預測區間估計是對x的一個給定值x0,求出y的一個個别值的區間估計,這一區間稱為預測區間。
預測區間 prediction interval
殘差分析 residual analysis
殘差分析就是通過殘差所提供的信息,分析出數據的可靠性周期性和其他幹擾,用于分析模型的假定正确與否的方法。
殘差 residual
殘差是因變量的觀測值yi與根據估計的回歸方程求出的預測值之差,用e表示。它反映了用估計的回歸方程去預測yi而引起的誤差。
标準化誤差 / Pearnson殘差 / 半學生化殘差 standardized residual / semi-studentized residuals
對ε正态性假定的檢驗,也可以通過對标準化殘差的分析來完成。标準化殘差是殘差除以它的标準差後得到的數值,用ze表示。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!