方差分析定義
方差分析(Analysis of Variance,簡稱ANOVA),又稱“變異數分析”,由R.A.Fisher提出,是一種利用試驗獲取數據并進行分析的統計方法,常用于研究不同效應對指定試驗的影響是否顯著。通過對試驗進行精心的設計,能夠在有限的物質條件下(時間、金錢、人力等),從盡可能少的試驗中獲取數據,并最大限度地包含有用的信息,而方差分析就是從相應的試驗數據中提取這種信息的統計分析方法。
方差分析原理與基本思想
在實際實驗中,由于各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的随機因素,另一是研究中施加的對結果形成影響的可控因素。
(1) 可控因素,通常是指實驗條件,即不同的處理造成的差異,稱為組間差異。用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。
(2)不可控随機因素,通常也稱為随機誤差,如測量誤差造成的差異或個體間的差異,稱為組内差異,用變量在各組的均值與該組内變量值之偏差平方和的總和表示, 記作SSw,組内自由度dfw。
總偏差平方和 SSt = SSb SSw。
組内SSw、組間SSb除以各自的自由度(組内dfw =n-m,組間dfb=m-1,其中n為樣本總數,m為組數),得到其均方MSw和MSb,一種情況是處理沒有作用,即各組樣本均來自同一總體,MSb/MSw≈1。另一種情況是處理确實有作用,組間均方是由于誤差與不同處理共同導緻的結果,即各樣本來自不同總體。那麼,MSb>>MSw(遠遠大于)。
MSb/MSw比值構成F分布。用F值與其臨界值比較,推斷各樣本是否來自相同的總體 。
其基本思想是:通過分析研究不同來源的變異對總變異的貢獻大小,從而确定可控因素對研究結果影響力的大小
方差分析基本術語
(1) 因素與水平
- 因素是指影響實驗結果的變量,是實驗因素的數目,也就是在實驗中根據實驗目的施加于研究對象的措施;醫學研究就是要研究各種實驗因素對研究對象的影響,因素一般為分類變量。
- 一個實驗因素可分為若幹水平;
- 如研究某種降糖藥物的三種不同劑量水平的降糖效果,降糖藥物是研究的因素,三種不同劑量是研究因素的三個水平。
(2) 水平組合
- 指各因素各個水平的組合,例如,在研究性别(二個水平)和血型(四個水平)對成年人身高的影響時,最多可以有2*4=8個水平組合。
(3) 協變量
- 協變量指對因變量可能有影響,需要在分析時對其作用加以控制的連續型變量。因素和協變量分别為分類變量和連續型自變量。當模型中存在協變量時,一般是通過找出它與因變量的回歸關系來控制其影響。
(4) 交互作用
- 如果一個因素的效應大小在另一個因素不同水平下明顯不同,則稱兩個因素間存在交互作用。當存在交互作用時,單純研究某個因素的作用是沒有意義的,必須區分另一個因素的不同水平研究該因素的作用大小。如果所有單元格内都至多隻有一個元素,則交互作用無法進行分析,隻能不予考慮。
(5) 固定因素與随機因素
- 固定因素指的是該因素在樣本中所有可能的水平都出現了。換言之,該因素的所有可能水平僅此幾種,針對該因素而言,從樣本的分析結果中就可以得知所有水平的狀況,無需進行外推。比如要研究三種促銷手段的效果有無差别,所有樣本隻會是三種促銷方式之一,不存在第4種促銷手段的問題,則此時該因素就被認為是固定因素。
- 随機因素指的是該因素所有可能的取值在樣本中沒有全部出現。換言之,目前在樣本中的這些水平是從總體中随機抽樣而來,如果重複本研究,則可能得到的因素水平會和現在完全不同,這時,研究者顯然希望得到的是一個能夠“泛化”,即對所有可能出現的水平均适用的結果。例如研究廣告類型和投放的城市對産品銷量是否有影響,在設計中随機抽取了20個城市進行研究,顯然,研究者希望分析結果能夠外推到全國的所有大、中型城市,此時就涉及将結果外推到抽樣未包括的城市中的問題,在這種情況下,城市就應當是一個随機因素。
方差分析前提條件- 效應的可加性(additivity):總效應為個因素的效應相加而不是相乘。
- 觀測的獨立性(independent):各觀測間相互獨立,即觀測間的誤差項不相關,每個觀測的誤差項的大小與方向不會影響前提觀測。
- 正态分布(normal distribution):誤差項服從正态分布,在固定效應模型中等價于因變量服從正态分布。建立的模型誤差項是否滿足正态性,可通過做殘差的直方圖或者P-P圖檢測。
- 方差齊性(equal variance):各樣本所來自方差相等的總體,這一假設可通過做殘差圖檢測。
, 更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!