tft每日頭條

 > 科技

 > 數據對比的原理

數據對比的原理

科技 更新时间:2024-05-16 13:03:24

數據對比的原理?編輯導語:當面臨數據存在差異性的情況時,我們需要檢驗數據差異是由什麼原因導緻,是否存在真實差異而假設檢驗可以通過樣本檢驗總體是否存在顯著性差異本篇文章裡,作者結合實際案例,介紹了幾種常用的假設檢驗方法,幫助你檢驗數據結果是真實差異還是誤差,今天小編就來聊一聊關于數據對比的原理?接下來我們就一起去研究一下吧!

數據對比的原理(你的數據結果是真實差異還是誤差)1

數據對比的原理

編輯導語:當面臨數據存在差異性的情況時,我們需要檢驗數據差異是由什麼原因導緻,是否存在真實差異。而假設檢驗可以通過樣本檢驗總體是否存在顯著性差異。本篇文章裡,作者結合實際案例,介紹了幾種常用的假設檢驗方法,幫助你檢驗數據結果是真實差異還是誤差。

一、背景

當面臨一組數據時,我們很容易發現其中的差異性,比如A方案與B方案的日活用戶有差,留存率有差,付費用戶數量也有差等等。

但是這些表面上的差異可能僅僅是由這一次抽樣誤差引起,并不是兩者确實存在差異。為此統計學上有針對不同情況下的檢驗方法,稱為假設檢驗。

本文以抖音為例,簡單介紹3種較常用到的假設檢驗方法:方差分析、獨立樣本t檢驗、相關系數的顯著性檢驗以及它們在SPSS中的實現。數據選取抖查查平台顯示的截止8月21日抖音粉絲數量前300裡去除明星、政務類等達人的數據(存在極端值)進行分析。

二、概念介紹

通過樣本檢驗總體是否存在顯著性差異的方法叫假設檢驗。假設檢驗中存在兩個相互對立、二者擇一的假設,一種叫虛無假設H0,另一種叫備擇假設H1

假設檢驗其實是一種反證法,我們想要得到的結果是A和B兩種方案有差異,首先需要假設兩者沒有差異,通過推翻這種假設來證明兩者有差異。

H0就表示兩者間的差異僅是抽樣誤差,H1表示兩者間确有差異,通過拒絕H0來證明H1是正确的,就完成了假設檢驗。根據統計學上的小概率原理,當某事件在一次試驗中發生的概率(p)低于5%時,就稱此事件為小概率事件,認為它在此次試驗中不會發生。此時就可以拒絕H0,接受H1。

下面以3個具體問題為例來介紹上面提到的3種方法。

三、問題一:不同的内容類型是否會影響粉絲數量(使用方差分析)?

在抖音上,不同的創作者基本都有自己特定的内容傾向,一般不會改變,比如有些是生活類,有些是遊戲類,那麼不同的内容類型會決定粉絲量的上限嗎?或者說在頭部達人裡,是否更高粉絲量的人集中在某些特定領域?

下圖顯示了不同分類達人的平均粉絲數量(單位:萬人)。單看此圖,你可能會認為影視娛樂類的内容更容易吸引粉絲,因為此類達人的平均粉絲數量最多,但是這種差異可能僅僅是本次抽樣誤差導緻的結果,為此需要進行的假設檢驗是方差分析

方差分析主要用來檢驗兩組以上平均數的差異問題,在本例中就是檢驗17個内容類型的平均粉絲量的差異。

自變量為内容類型,因變量為粉絲量,因為隻有一個自變量,所以應該進行單因素方差分析。

H0:各内容類型達人的粉絲量不存在顯著差異;

H1:至少有一組(兩個)不同内容類型達人的粉絲數量存在顯著性差異。在SPSS中步驟為分析→比較平均值→單因素ANOVA檢驗。

将粉絲量選入因變量框,内容類型選入因子框,點擊右側選項按鈕,勾選方差齊性檢驗,點擊确定。

進行方差分析的一個前提就是要保證各組内方差齊性,如果方差不齊則結果無意義。

本例最後的結果顯示,方差齊性檢驗中p=0.528>0.05,各組方差齊性;方差分析中p=0.401>0.05。表明我們不能拒絕H0,即:

創作不同内容的達人粉絲量間的差異僅是抽樣誤差,每個類型的達人粉絲數量并無顯著差異。

(注:假如p<0.05,則還需進行事後檢驗來檢驗哪些組間存在顯著性差異)

四、問題二:是否簽約MCN對頭部達人還有影響嗎(使用獨立樣本t檢驗)?

雖然簽約MCN可以幫助一個普通人獲得資本的加持,保障内容的持續輸出,較快獲得流量變現,但是在頭部達人中,MCN的作用還大嗎?下圖顯示了兩類達人數量及平均粉絲量。能據此作出簽約MCN的達人比未簽MCN達人的粉絲量更高嗎?

此時需要進行的假設檢驗是獨立樣本t檢驗,它和方差分析的區别在于,獨立樣本t檢驗隻能處理兩組平均數,而方差分析主要用于處理3組及以上數量的平均數。

H0:簽約和未簽MCN達人的粉絲量無顯著差異;

H1:簽約和未簽MCN達人的粉絲量間存在顯著性差異。

在SPSS中的操作為分析→比較平均值→獨立樣本T檢驗。

将粉絲量選入檢驗變量框,是否簽約MCN選入分組變量框,點擊定義組,組1輸入“是”,組2輸入“否”,點擊繼續,點擊确定。

結果如下:

在假定等方差時,p>0.05,則不能拒絕等方差的結果,就看此行結果中的t檢驗結果,p=0.944>0.05。表明不能拒絕H0,即:

在抖音頭部達人中,簽約和未簽MCN的達人的粉絲數量無顯著性差異。

五、問題三:以下指标對粉絲數量有影響嗎(使用相關系數的顯著性檢驗)?

先來看3張散點圖。

從圖中可以看出的是,在與粉絲量的關系上,作品平均獲贊數>作品數>贊粉比,檢驗此結果真實性需要進行的是相關系數的顯著性檢驗,共檢驗3次。

H0:粉絲量與XXX的相關系數為0;

H1:粉絲量與XXX的相關系數不為0。

在SPSS中的操作為分析→相關→雙變量。

将粉絲量與XXX選入右邊變量框,勾選左下角标記顯著性相關性。

作品數的結果顯示,r=0.146,p<0.05。說明兩者雖然相關,但相關性很弱,即作品數對粉絲量有一定影響,但影響不大。

贊粉比的結果顯示,r=-0.023,p>0.05。說明二者不存在相關關系,贊粉比對粉絲數量無影響。

作品平均獲贊數的結果顯示,r=0.378,p<0.001。說明二者呈顯著的中等程度的正相關,作品平均獲贊數對粉絲量影響較大。

檢驗結果與我們設想的一緻,但這并不表示可以直接通過散點圖的趨勢來判斷是否存在顯著性相關,相關系數的大小也與是否顯著無關,假如相關不顯著,那麼相關系數再大也是無意義的,需要在相關顯著的基礎上,再通過相關系數的大小來判斷二者的相關程度。

六、結論

獨立樣本t檢驗、單因素方差分析和相關系數的顯著性檢驗都是較常用到且基本的假設檢驗方法,掌握這些方法後可以避免被數據的表象迷惑,對結論做出更準确的判斷。關于這三種方法的原理以及更詳細的适用條件,讀者可以自行查閱統計書籍。

本文由 @flowaa 原創發布于人人都是産品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved