tft每日頭條

 > 科技

 > 數據的分析方差問題較難題

數據的分析方差問題較難題

科技 更新时间:2024-07-06 23:55:41

數據的分析方差問題較難題(16種常用的數據分析方法-方差分析)1

方差分析(Analysis ofVariance,簡稱ANOVA),又稱“變異數分析”,又叫F檢驗。是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差别的顯著性檢驗。


方差波動來源



由于各種因素的影響,研究所得的數據呈現波動狀,而方差分析的基本原理認為不同處理組的均數間的差别基本來源有兩個:一是不可控的随機因素,另一是研究中施加的對結果形成影響的可控因素。


  • 實驗條件,即不同的處理造成的差異,稱為組間差異。

用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。


  • 随機誤差,如測量誤差造成的差異或個體間的差異,稱為組内差異。

用變量在各組的均值與該組内變量值之偏差平方和的總和表示,記作SSw,組内自由度dfw。


總偏差平方和 SSt = SSb SSw。





方差分析應用場景



方差分析在工作場景中如何應用呢?看案例:


假如産品針對用戶提出了三種提高客單價的策略A、B、C,現在要評估3種策略對提高客單價的效果差異。


如何知道3種策略效果有什麼不同?最簡單的方法就是做一個實驗。


如:随機挑選一部分用戶,然後把這些用戶分成三組A、B、C組,A組用戶使用A策略、B組用戶使用B策略、C組用戶使用C策略,


策略實施一段時間以後,分析3組分别的客單價水平。哪組平均客單價高,就說明哪組策略有效。

可是,這樣得出的結論是否有偏差呢?


當然有,出現偏差的來源:


其一是實驗的用戶是随機挑選的,有可能客單價高的那部分用戶(如高價值用戶)集中出現在某一組中,造成這組的策略效果更好。


當然,按照方差原理的差别基本來源,還有可能由于策略執行過程中,實驗條件造成的策略結果差異。


為了排除實驗結果中,上述兩種來源造成的結果偏差,就需要使用方差分析去證做進一步證實。最終獲得更嚴謹、更有說服力的策略結論。


方差分析中的名詞解釋


方差:又叫均方,是标準差的平方,是表示變異的量。


因素:方差分析的研究變量;例如,研究裁判打分的差異,裁判就被稱為因素;


水平:因素中的内容稱為水平;例如,總共有3個裁判打分,則裁判因素的水平就是3;


觀測因素:又稱觀測變量,指對影響總體的因素;


控制因素:又稱控制變量,指影響觀測變量的因素;



方差分析的3個假定基礎


1.每組樣本數據對應的總體應該服從正态分布;


正态檢驗主要有兩種大的方法,一種是統計檢驗的方法:主要有基于峰度和偏度的SW檢驗、基于拟合度的KS、CVM、AD檢驗;另一種是用描述的方法:Q-Q圖和P-P圖、莖葉圖,利用四分位數間距和标準差來判斷。


2.每組樣本數據對應的總體方差要相等,方差相等又叫方差齊性;


方差齊性的主要判斷方法有:方差比、Hartley檢驗、Levene檢驗、BF法。


3.每組之間的值是相互獨立的,就是A、B、C組的值不會相互影響。


單因素方差分析-F檢驗


方差分析把總的變異分為組間變異和組内變異:


組間變異:各組的均數與總均數間的差異;


組内變異:每組的每個測量值與該組均數的差異


數據的分析方差問題較難題(16種常用的數據分析方法-方差分析)2



離差平方和為:SS總=SS組間 SS組内


F統計量可表述為:F=MS組間/MS組内。


F值結論理解:通過計算得到的F值就可以查到P值,P值小于0.05,則拒絕原假設,認為其是有統計學意義的。

案例:


某飲料生産企業研制出一種新型飲料。飲料的顔色共有四種,分别為橘黃色、粉色、綠色和無色透明。


這四種飲料的營養含量、味道、價格、包裝等可能影響銷售量的因素全部相同,先從地理位置相似、經營規模相仿的五家超級市場上收集了前一期該種飲料的銷售量情況


數據的分析方差問題較難題(16種常用的數據分析方法-方差分析)3

表中20個數據各不相同,原因可能有兩個方面:


一、銷售地點影響。相同顔色的飲料在不同超市的銷售量不同。案例中五個超市地理位置相似、經營規模相仿,因此把不同地點的銷售量差異做為随機因素影響。

二、飲料顔色不同的影響。在同一超市不同顔色的飲料銷售量不同。即使營養成分、味道、價格、包裝等方面因素都相同,銷售量也不相同。


這種不同雖然有類似抽樣随機性造成,但更可能是人們對不同顔色的偏愛造成的。


根據上述分析,把案例分析問題歸結為:檢驗飲料顔色對銷售量是否有影響。


分析過程


一、建立假設:原假設“顔色對銷售量沒有影響”


二、計算不同顔色飲料銷售量水平均值


無色飲料銷售量均值=136.6÷5=27.32箱

粉色飲料銷售量均值=147.8÷5=29.56箱

桔黃色飲料銷售量均值=132.2÷5=26.44箱

綠色飲料銷售量均值=157.3÷5=31.46箱


三、計算各種顔色飲料銷售量的總均值


各種顔色飲料銷售量總的樣本平均數=(136.6 147.8 132.2 157.3)÷20=28.695箱


四、計算離差平方和、F值


F值=組間方差/組内方差=76.8455/(4-1)/ 39.0840/(20-4)=10.486


五、算出P值,做出結論

P值=根據F值算出P值=0.000466


結論解讀:


P-值=0.000466<顯著水平标準=0.05,假設不成立,說明飲料的顔色對銷售量有顯著影響。



,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved