tft每日頭條

 > 生活

 > 統計預測的實驗總結

統計預測的實驗總結

生活 更新时间:2025-08-18 20:44:53

我是ZZ,點擊上方“關注”,每天為你分享數據分析幹貨;私信我回複數字01,送你一份新手入門數據分析大禮包。

統計學(2)|A/B測試—理論基礎中,我們理清了AB測試的理論基礎——假設檢驗的思想,并且嚴格推導了為什麼現在公司做AB測試基本全都使用 統計量。這篇文章,我們來介紹一下如何對AB測試的實驗結果進行分析。在進行結果分析之前,我們先簡單回顧一下假設檢驗的相關知識。

1.假設檢驗1.1 假設檢驗的定義

假設檢驗是先對總體的參數提出某種假設,然後利用樣本數據判斷假設是否成立的過程。

具體到A/B測試裡的假設檢驗,就是指假設實驗組的總體參數等于對照版本的總體參數,然後利用這兩個版本的樣本數據來判斷這個假設是否成立。如果樣本數據拒絕原假設,我們說檢驗的結果是顯著的;反之,我們則說結果是不顯著的。

1.2 假設檢驗的流程
  • 提出原假設與備擇假設
  • 構造檢驗統計量
  • 進行決策

了解了假設檢驗的流程之後,我們一一介紹一下這個裡面的一些基本概念。

1.3 假設檢驗中的基本概念

1.3.1 原假設H0和備擇假設H1

我們常把沒有把握不能輕易肯定的命題作為備擇假設 ,而把沒有充分理由不能輕易否定的命題作為零假設 ,或者說我們将希望通過實驗結果推翻的假設記為零假設 。

原假設和備擇假設是一個完備事件組,而且相互對立。在一項假設檢驗中,原假設和備擇假設必有一個成立,而且隻有一個成立。

1.3.2 檢驗統計量

在AB測試涉及的假設檢驗中,我們所構造的檢驗統計量稍微有一丢丢複雜,因為假設檢驗想要比較兩個總體參數是否存在顯著差異,所以對應的兩個樣本的統計量相比單個樣本的統計量複雜一些。但有了上一篇文章的推導之後,我們了解了 統計量是如何構造的,所以可以直接用一張圖來表示不同情況下對應的不同統計量的形式。

2. 實驗結果分析

當我們提出假設,并且構造完統計量之後,我們就要進行決策了,在統計學中,進行決策通常有兩種方式:

一種是将統計量的值與給定顯著性水平下統計量的分布的臨界值作比較,以此來判斷是否接受原假設。這種根據統計量落入的區域做出是否拒絕原假設的決策。确定顯著性水平 以後,拒絕域的位置也就确定了。(顯著性水平就是我們後文中要提到的犯第一類錯誤的概率)

統計預測的實驗總結(統計學3AB測試)1

但實際進行AB測試時,我們使用的是以P值為主的實驗結果評估體系。

2.1 P 值

p值當原假設為真時,出現樣本觀察結果或者更極端結果出現的概率。

如果P 值很小,說明發生這種情況的概率很小,而一旦發生了,根據小概率原理,我們就有理由拒絕原假設,P 值越小,拒絕的理由越充分。

舉個例子:假設 ,那我們随機抽取一個樣本,其均值大于0 的概率就是P 值。通常,我們将P 值與事先确定的顯著性水平進行比較,如果 ,則拒絕原假設。

在實際進行AB測試時,我們需要判斷兩個不同版本之間是否存在差異,P 值就是告訴我們兩個版本的實驗結果之間存在顯著差異的概率。

2.2. 兩類錯誤和統計功效

(1)兩類錯誤

當我們提出原假設之後,我們需要根據樣本信息判斷原假設對不對。但是這種判斷不是百分之百對的,我們可能會犯錯誤,錯誤有兩種類型:

統計預測的實驗總結(統計學3AB測試)2

兩類錯誤

第 I 類錯誤(棄真錯誤):原假設為真時拒絕原假設;第 I 類錯誤的概率記為α ,也好就是我們前文提到的顯著性水平。

第 II 類錯誤(取僞錯誤):原假設為假時未拒絕原假設。第 II 類錯誤的概率記為β 。

(2)統計功效

一般情況下,我們在做假設檢驗時候,希望拒絕原假設,得到新的結論。比如我們做AB測試,我們當然希望實驗組的效果要好于對照組。也就是我們希望不要出現應該拒絕原假設時,我們卻沒有拒絕的情況,這就是剛才說的第二類錯誤。

統計功效Power 就是我們沒有犯第II類錯誤的概率1-β ,也就是原假設不成立時,被我們拒絕的概率。

實際進行AB測試時,統計功效就是,當兩個不同版本之間存在顯著差異時,實驗能正确做出存在差異判斷的概率。

該值越大則表示概率越大、功效越充分。一般來說,我們期待并設置的最低的統計功效值為80%。

2.3 置信區間

統計學中用樣本去推斷總體有兩個工具:參數估計與假設檢驗。

這裡我們稍加筆墨來介紹一下參數估計,目的是為了引出在AB測試中最關注的元素之一:置信區間。

參數估計和假設檢驗都是利用樣本對總體進行推斷。但是推斷的角度有所不同。

參數估計是用樣本統計量去估計總體參數,總體參數在估計前未知;

而假設檢驗,則是先對總體參數的值提出一個假設,然後利用樣本統計量去檢驗這個假設是否成立。

參數估計又分為點估計和區間估計。

點估計,顧名思義就是用樣本統計量的某個值作為總體參數的估計值。

區間估計,就是基于點估計,給出總體參數估計的一個區間範圍,這個區間通常由樣本統計量加減估計誤差得到。這個區間也就是我們所說的置信區間, 我們給它一個官方的定義:

由樣本量所構造的總體參數的估計區間稱為置信區間

在上文構造統計量的表格中,已經列舉出了置信區間的計算公式,這裡我們也不過多的介紹了。

由于置信區間是一個估計區間,但是我們不能保證它一定包含總體參數。我們隻能說構造的是一定置信水平下的置信區間。什麼是置信水平呢?

如果将構造置信區間的步驟重複多次,置信區間所包含總體參數真值的次數所占的比例稱為置信水平。

舉個栗子:

我們有100個樣本,由100個樣本構造了100個置信區間,其中有95%的區間包含總體參數,5%沒有包含,這個95%就是置信水平。

介紹完置信水平之後,我們就可以用一張圖來表示置信區間與置信水平:

統計預測的實驗總結(統計學3AB測試)3

在實際進行AB測試時,置信區間可以輔助确定版本間是否有存在顯著差異的可能性:如果置信區間上下限的值同為正或負,認為存在有顯著差異的可能性;如果同時有負值和正值,那麼則認為不存在有顯著差異的可能性。

2.4 實驗結果分析體系

在實際進行AB測試時,我們的實驗結果分析體系就是由上述的P 值、統計功效和置信區間所構成的。

(1)P值

判斷兩個不同版本的實驗結果之間存在顯著差異的概率。如果 p值<α(顯著性水平,一般取0.05),就表示存在顯著差異。

(2)統計功效

當兩個不同版本之間存在顯著差異時,實驗能正确做出存在差異判斷的概率。可以理解為我有多少的把握認為版本之間有差别。

(3)置信區間

置信區間可以輔助确定版本間是否有存在顯著差異的可能性。

綜上,我們認為當AB測試實驗數據在95%的置信水平區間内,P值小于0.05,功效大于80%的情況下,實驗結果是可信賴的。當然,這是一個嚴格的理想标準。在使用的實際過程中,我們會遇到多種情況,比如P值符合标準,功效還差一些,此時,我們就要根據實驗背景與經驗,具體問題具體分析。

通過這兩篇文章,整個AB測試所涉及的統計學原理,以及如何将相關統計學概念應用到AB測試實驗結果的分析中,我們已經介紹完了。之後我們會更新AB測試在實際工作中的流程,如何确定最小樣本量等内容,感興趣的可以繼續關注~

作者:ZZ數據分析,網易資深數據分析師,專注數據分析、數據科學知識分享。關注之後私信我,回複數字“01”,送你一份數據分析師大禮包。

同系列文章:

  • 統計學(1)|白話統計學發展(含統計學必知必會)
  • 統計學(2)|AB測試—理論基礎
  • 統計學(3)|AB測試—實驗結果分析(本文)
  • 統計學(4)|AB測試—實驗流程
  • 統計學(5)|AB測試—方差分析與卡方檢驗
,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved