tft每日頭條

 > 生活

 > 多組數據假設檢驗公式

多組數據假設檢驗公式

生活 更新时间:2024-09-08 13:45:09

這一次我們來了解一下假設檢驗中另一個重要檢驗-F檢驗

什麼是F檢驗?

F檢驗(F-test),最常用的别名叫做聯合假設檢驗(英語:joint hypotheses test),此外也稱方差比率檢驗方差齊性檢驗方差分析,它是一種在(H0)之下,統計值服從的檢驗。其通常是用來分析用了超過一個參數的統計模型,以判斷該模型中的全部或一部分參數是否适合用來估計總體

F檢驗對于數據的正态性非常敏感,因此在檢驗方差齊性的時候,Levene檢驗, BartletT檢驗或者Brown–Forsythe檢驗的穩健性都要優于F檢驗。 F檢驗還可以用于三組或者多組之間的均值比較(方差分析),但是如果被檢驗的數據無法滿足均是正态分布的條件時,該數據的穩健型會大打折扣,特别是當顯著性水平比較低時。但是,如果數據符合正态分布,而且alpha值至少為0.05,該檢驗的穩健型還是相當可靠的。

若兩個母體有相同的方差(方差齊性),那麼可以采用F檢驗,但是該檢驗會呈現極端的非穩健性和非常态性,可以用T、巴特勒特檢驗等取代。

在上節做獨立雙樣本T檢驗的時候,需要先判斷兩個樣本的方差是否相等,需要做方差齊性檢驗,提到了Levene檢驗,現在聊一下這個方差齊性檢驗。

方差齊性檢驗

1,什麼是方差齊性檢驗?

方差分析

我們之前做的T分布都是對兩個樣本都的均值進行比較,如果是三個、四個或者更多呢?這個時候我們需要考慮使用方差分析了。方差分析就是用來檢驗兩個或者多個樣本均值之間差異的顯著性,也就是用來研究諸多控制變量中哪些變量對觀測值有顯著的影響。

為什麼叫方差分析?

在檢驗均值之間的差異是否有統計學意義的過程中,我們實際上是從觀測變量的方差入手,通過比較方差而得到的。

方差分析的原理

方差分析認為控制變量值的變化手兩類因素的影響,第一類是控制因素的不同水平所産生的,第二類是随機因素産生的影響,這裡的随機因素主要是實驗過程中的抽樣誤差。

什麼是因素?所要檢驗的對象就是因素

什麼是水平?因素的不同類别或者不同取值就是因素的水平,每一個水平都可以看成一個總體

不同處理組的均數間的差别基本來源有兩個:

(1) 因子條件,即不同的因子造成的差異,稱為組間平方和。用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSB

(2) 随機誤差,如測量誤差造成的差異或個體間的差異,稱為組内平方和,用變量在各組的均值與該組内變量值之偏差平方和的總和表示,記作SSE

總偏差平方和 SST = SSB SSE。

SSB/SSE比值構成F分布

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)1

用F值與其臨界值比較,推斷各樣本是否來自相同的總體 。

根據因素的個數,可以将方差分析分為單因素方差分析和多因素方差分析兩種

單因素方差分析

原假設H0:不同因子對觀測結果沒有産生顯著性影響(不同因子對觀測量的效應同時為零)

舉個栗子:

在一個飼料養雞研究中,提出A,B,C三種飼料,為比較三種飼料的效果,選擇24隻相似的雛雞随機分為三組,各組喂養一種飼料,60天後觀察他們的重量

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)2

問三組飼料對養雞增重的作用是否相同?

1,使用Excel實現

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)3

P值為0.045432,小于0.05,所以拒絕原假設,說明三種飼料對雞增重有明顯的差别

Python實現單因素方差分析

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)4

結果如下:

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)5

說明: 上述結果中, df表示自由度; sum_sq表示平方和; mean_sq表示均方和;F表示F檢驗統計量的值,; PR(>F)表示檢驗的p值; x就是因素x ;Residuals為殘差。

其中P=0.45432,和用Excel做的一樣,拒絕原假設

python使用方差分析在特征選擇上的應用-單變量特征選擇

單變量特征選擇的原理是分别單獨的計算每個變量的某個統計指标,根據該指标來判斷哪些指标重要,剔除那些不重要的指标

Python庫sklearn.feature_selection.SelectKBest(score_func,K),score_func提供了許多種統計指标,默認的是f_classif,主要用于分類任務的标簽和特性之間的方差分析。當然還有分類問題卡方檢驗(Chi2),還有回歸問題的F檢驗(f_regression)

多因素方差分析

多因素方差分析用來研究兩個及兩個以上的控制變量是否對觀測值産生顯著的影響,不僅能夠分析多個因素對觀測值的影響,還能夠分析多個控制變量的交互作用能否對觀測值産生影響,進而找到有利于觀測值的最優組合。

在 ANOVA 呈現顯著性之後,我們很自然就想知道究竟哪些組的均值不一樣。

要回答這個問題,我們需要用到「事後檢驗」( post-hoc test )。事後檢驗的方法有很多,其中 Tukey-Kramer(又叫做 Tukey HSD)檢驗是最常用的辦法。它不僅給出 p 值,還能同時給出置信區間,方便判斷效應大小,一舉兩得。統計學裡面正好有一個分布就是描述來自同一正态分布的多組數據的平均值最大和最小的兩組的差距,叫做學生範圍分布( Studentized range distribution )。Tukey-Kramer 檢驗是正是根據學生範圍分布提出來的。

具體來講,Tukey-Kramer 檢驗會對所有組進行兩兩比較,在SPSS中單因素ANOVA或者一般線性模型中都有"兩兩比較"選項卡,勾選Tukey即為本文中提到的Tukey-Kramer方法

這裡提供python的方法

舉個栗子:

教學實驗中,采用不同的教學方法和不同的教材進行教學實驗,獲取數據分析不同教法和不同教材對教改成績的影響,數據如下:

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)6

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)7

結果如下:

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)8

結果顯示教法(P=0.000004)對教改成績有顯著影響,教材和教法的交互作用(P=0.016695)對教改成績有顯著影響,而教材(p=0.377)對教改成績沒有顯著影響

有必要進行事後簡單,使用tukey方法對教法進行多重比較的方法及結果:

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)9

結果說明:1和2的reject=False,兩種教法無顯著性差異;1和3,2和3的reject=True,說明這兩種教法有顯著性差異

說了這麼多,F分布到底長啥樣?來最後看一下F分布:

多組數據假設檢驗公式(假設檢驗之F檢驗-方差分析)10

後記:

T檢驗和方差分析有什麼區别:

其方差分析和t檢驗其實相通的,在特定情況下甚至是等價的。比如要比較兩個獨立樣本的均值是否有顯著不同,在雙邊檢驗的情況下 t 檢驗算出來的 p 值與 ANOVA 算出來的 p 值相等,ANOVA 的統計檢驗量 F 正好是 t 檢驗得到的 t 值的平方。

方差分析在實際應用中使用非常廣泛。比如研究幾條不同生産線生産的同一種零件會不會有顯著差異,同一種藥物對不同年齡組的人群會不會有不同的效果,同一個城市居住在幾個不同城區的人患某種疾病的概率是不是一樣等等問題。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved