前言:對于數據分析師來說,統計學是必不可少的基礎知識。不僅工作中會經常運用其概念,且也幾乎是數據分析師工作的面試必考題(尤其是校招以及轉行的朋友,當實戰經驗少的時侯會更關注基礎功底是否紮實)。所以我準備開始以較簡練的語言,輔以簡單易懂案例,總結一些統計學核心的知識點。我們常用的ab實驗,其背後的原理就是統計學中的假設檢驗,今天我們來詳細說說假設檢驗。
一、常用核心概念
什麼是假設檢驗:假設就是對從總體參數(均值、比例等)的具體數值所作的陳述,比如,我認為配方一比配方二的效果要好。而假設檢驗就是先對總體的參數提出某種假設,然後利用樣本的信息判斷假設是否成立的過程,比如上面的假設信息我該接受還是拒絕。
什麼是顯著性水平:顯著性水平是一個概率值,原假設為真時,拒絕原假設的概率,表示為α,常取值為0.05、0.01、0.10。一個公司招聘,本來準備招聘100個人,公司希望隻有5%的人是混水摸魚招聘進來,所以可能會有5個人混進來,所謂顯著性水平α,就是你允許有多少比例混水摸魚的能通過測試。
原假設與備擇假設:待檢驗的假設又叫原假設(零假設),一般表示為H0,原假設一般表示兩者沒有顯著性差異。與原假設進行對比的叫備擇假設,表示為H1。一般在比較的時候,主要有等于、大于、小于。
檢驗統計量:即計算檢驗的統計量。根據給定的顯著性水平,查表得出相應的臨界值。再将檢驗統計量的值與該顯著性水平的臨界值進行比較,得出是否拒絕原假設的結論。
P值:是一個概率值,如果原假設為真,p值是抽樣分布中大于或小于樣本統計量的概率。左檢驗時,p值為曲線上方小于等于檢驗統計量部分的面積。右檢驗時,p值為曲線上方大于等于檢驗統計量部分的面積。
假設檢驗的兩種錯誤:類型 I 錯誤(棄真),如原假設為真,但否定它,則會犯類型 I 錯誤。犯類型 I 錯誤的概率為 α(即您為假設檢驗設置的顯著性水平)。α 為 0.05 表明,當您否定原假設時,您願意接受 5% 的犯錯概率。為了降低此風險,必須使用較低的 α 值。但是,使用的α值越小,在差值确實存在時檢測到實際差值的可能性也越小。類型 II 錯誤(采僞),如原假設為假,但無法否定它,則會犯類型 II 錯誤。犯類型 II 錯誤的概率為 β,β 依賴檢驗功效。可以通過确保檢驗具有足夠大的功效來降低犯類型 II 錯誤所帶來的風險。方法是确保樣本數量足夠大,以便在差值确實存在時檢測到實際差值。
單雙測檢驗:當假設關鍵詞有不得少于/低于的時候用左側檢驗,比如燈泡的使用壽命不得少于/低于700小時時;當假設關鍵詞有不得多于/高于的時候用右側檢驗,比如次品率不得多于/高于5%時。雙側檢驗指按分布兩端計算顯著性水平概率的檢驗,應用于理論上不能确定兩個總體一個一定比另一個大或小的假設檢驗。一般假設檢驗寫作H0:μ1=μ2。
檢驗結果:單側,若p值>α,不拒絕H0,若p值<α,拒絕H0;雙側,若p值>1/2α,不拒絕H0,若p值<1/2α,拒絕H0
二、假設檢驗方法
假設檢驗方法:z檢驗,t檢驗,卡方檢驗(卡方本篇不詳述,應用較少)
2.1 Z檢驗
Z檢驗原理:當總體标準差已知,樣本量較大時用标準正态分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。如果檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著,其Z值計算公式為:
如果檢驗來自兩個的兩組樣本平均數的差異性,從而判斷它們各自代表的總體的差異是否顯著,其Z值計算公式為:
Z檢驗實例:
研究正常人與高血壓患者膽固醇含量,比較兩組血清膽固醇含量有無顯著差異。
正常人組數據:n1=506(樣本量) μ1=180.6(樣本均值) s1=34.2(标準差)
高血壓組數據:n2=142 μ2=223.6 s2=45.8
1、提出假設,規定适當檢驗統計量,确定檢驗水平:
H0:μ1=μ2
H1:μ1≠μ2
α=0.05,樣本量較大,且檢驗來自兩組樣本平均數的差異性,故選擇z檢驗統計量
2、計算統計量z值
将已知數據帶入z檢驗公式,
計算假設檢驗統計量 z=10.4
α=0.05,雙側故 α/2=0.025,1-α=0.975 查表,确認臨界值為1.96
3、确定p值,做出推斷結論
10.4(z值)>1.96(臨界值),故p<0.05,按α=0.05水準拒絕H0,接受H1,可以認為正常人和高血壓患者的血清膽固醇含量有差異。
2.2 t檢驗
t檢驗:分為單樣本的t檢驗、配對樣本均數t檢驗(本篇不詳細說)、兩獨立樣本均數t檢驗。t檢驗應用于兩組計量資料小樣本比較,樣本對總體有較好代表性,對比組間有較好組間均衡性,即随機抽樣和随機分組。且樣本來自正态分布總體。單個樣本t檢驗适用于樣本均數與已知總體均數μ0的比較,目的是檢驗樣本均數所代表的總體均數μ是否與已知總體均數μ0有差别。應用于總體标準α未知的小樣本資料,且服從正态分布。
單樣本t檢驗實例:
某地新生兒出生體重為3.3kg,從該地難産兒中随機抽取35名嬰兒,平均體重為3.42kg,标準差為0.4kg,問該地難産兒出生體重與新生兒體重是否不同?
1、提出假設,規定适當檢驗統計量,确定檢驗水平:
H0:μ=μ0
H1:μ≠μ0
α=0.05 ,樣本均數與已知總體均數μ0的比較,所以選擇單樣本t檢驗
2、計算統計量z值
n=35 μ0=3.3 μ=3.42 s=0.4
自由度=n-1=34,α=0.05,雙側故 α/2=0.025,1-α=0.975,自由度34,查表得出臨界值為2.032
3、确定p值,做出推斷結論
因為1.77(z值)<2.032(臨界值),故p>0.05,按α=0.05水平,差别無統計學意義,不拒絕h0,不能認為該地難産兒與新生兒體重有差異。
兩獨立樣本t檢驗(ab實驗背後原理):适用于完全随機設計的兩樣本均數的比較,其目的是檢驗兩樣本所來自總體的均數是否相等。兩獨立樣本t檢驗要求兩樣本所代表的總體服從正态分布N(μ1,σ^2)和N(μ2,σ^2),且兩總體方差σ1^2、σ2^2相等,即方差齊性。若兩總體方差不等需要先進行變換。兩獨立樣本t檢驗的檢驗假設是兩總體均數相等,即H0:μ1=μ2,統計量計算公式為:
兩獨立樣本t檢驗實例:
25例糖尿病患者随機分成兩組,甲單純藥物治療,乙采用藥物合并飲食治療,二月後測空腹血糖如下,問兩種療法血糖值是否相同?
數據:n1=12 s1=182.5 n2=13 s2=141
1、提出假設,規定适當檢驗統計量,确定檢驗水平:
H0:μ1=μ2 H1:μ1≠μ2
α=0.05, 選用兩獨立樣本t檢驗方法
2、計算統計量z值
将數據帶入公式,計算得t=2.639
自由度=n1 n2-2=23 α=0.05,雙側故 α/2=0.025,1-α=0.975,查表得臨界值為 t=2.069
3、确定p值,做出推斷結論
因為2.639(t值)>2.069(臨界值) ,故 p<0.05 , 在0.05水準下,拒絕H0,接受H1,存在顯著性差異,故認為兩種療法效果不同。
作者:趙小洛 一線互聯網公司數據分析師、商業分析師,主刊互聯網數據分析相關、方法論、複盤、思考總結。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!