tft每日頭條

 > 生活

 > 測你的受歡迎程度測試

測你的受歡迎程度測試

生活 更新时间:2024-10-13 14:58:51

原文再續,書接上回,Z檢驗醒木拍案,AB組高下立判,但究竟是霄壤之别,還是聊勝一籌,且聽本回分解~

測你的受歡迎程度測試(續你的AB測試結果真的靠譜嗎)1

之前在《你的A/B測試結果真的靠譜嗎?》一文中,我們分享了如何用假設檢驗的方法,來确定兩組之間的差異是否顯著,但兩組之間的真實差異有多大,是否和數字表面上的差距一樣呢?

為此,我們需要了解另一個知識點—置信區間。

知識點:置信區間

在回顧知識點的時候,大家還是不要慌張,讓我們循序漸進,用講人話的方式來重新認識課本上這些晦澀難懂的公式定理。

首先還是先看一下百度百科的定義:

置信區間是指由樣本統計量所構造的總體參數的估計區間。

在統計學中,一個概率樣本的置信區間(Confidence interval)是對這個樣本的某個總體參數的區間估計。置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度,其給出的是被測量參數的測量值的可信程度,即前面所要求的“一個概率”。

上一文中,我們了解了AB測試的原理,其實就是用随機樣本的表現,來預估總體的表現,而樣本的結果可能會存在偏差,并不一定真實反映總體的情況。那麼,樣本對總體的估計會存在一個合理的區間範圍,這個區間範圍其實就是置信區間。

那怎麼計算出這個置信區間呢?

以上一次的這個正态分布圖為例:中間最高的部分對應的是分布的均值,我們在做估計時,當然要以均值為基準,然後估一個上下浮動的範圍。

測你的受歡迎程度測試(續你的AB測試結果真的靠譜嗎)2

如果為了保守起見,我們可以把上下浮動的範圍放大一些,這樣總體均值落在這一區間的概率也就更大一些。

我們也可以把浮動範圍縮小一點,那麼總體均值落在這個區間的概率也就相對小一點。

目前,我們一般使用的是95%置信度,也就是說要保證總體均值有95%的概率落在這一區間内,這個區間範圍也就是95%置信區間。

通俗一點來講,比如:你之前的績效系數基本都在1左右,偶爾也有幾次拿到了1.5,還有幾次表現不好,隻拿到了0.5。快到年終了,還有幾個月的績效系數沒有出,你的同事讓你估計一下,你的全年的彙總績效是多少,那麼你會怎麼估算呢?

首先,你到目前為止,績效系數均值是1,在估算全年總績效時,你可以大緻判斷,應該也是在1附近,所以你大可以直接告訴Ta,你的全年績效差不多應該是1。

這個時候,你的同事說:如果你估錯了,就要請整個組的人吃飯。

于是,你慌了,連忙改口說你預估全年績效應該在0.5到1.5之間。

當然,這樣會顯得非常無趣,因為你估了一個最值框定的範圍,或者說是100%置信區間。

如果是熟悉置信區間的朋友,這個時候可以迅速掐指一算,計算出一個95%置信區間,然後報出你估計的範圍是0.7到1.3之間。

那麼,你猜中的概率就是95%,也就是說你隻有5%的概率會請大家吃飯,不失趣味的同時透露着心機妙算。

下面就為大家展示置信區間的計算公式:

測你的受歡迎程度測試(續你的AB測試結果真的靠譜嗎)3

其中,

  • μ:樣本均值
  • Zα/2:95%置信度下的固定值為1.96
  • S2:樣本方差
  • n:樣本量

了解完置信區間後,我們知道了如何用樣本去估計總體,但是做AB測試的核心是比較,因此我們更需要的是去估計兩個總體之間的差值。

對于總體均值差的區間估計方法和上面類似,我們先上公式:

測你的受歡迎程度測試(續你的AB測試結果真的靠譜嗎)4

其中:

  • μ1:樣本組1的均值
  • μ2:樣本組2的均值
  • Zα/2:95%置信度下的固定值為1.96
  • S12:樣本組1的方差
  • S22:樣本組2的方差
  • n:樣本組1的樣本量
  • m:樣本組2的樣本量

這個公式和之前提到的Z檢驗公式是不是非常相似,接下來我們來看一看Z檢驗和置信區間的關系。

應用題

最後,我們回到AB測試的結果上,接着上一篇文章中的例子,如果我們要驗證兩種不同活動方案的效果差異,首先随機抽取用戶分成AB兩組,其中A組人數為n1,B組人數為n2。

然後,對兩組用戶施加不同的活動幹預,最後得到兩組用戶的轉化率分别是p1和p2,那麼對應的方差就應該是:

S12=p1*(1-p1)=p1q1

S22=p2*(1-p2)=p2q2

最終,置信區間的公式就變成了:

測你的受歡迎程度測試(續你的AB測試結果真的靠譜嗎)5

我們以實際的數據來看一看,假設我們有兩個實驗組,分别施以不同的活動策略,兩組的相關指标數據如下:

測你的受歡迎程度測試(續你的AB測試結果真的靠譜嗎)6

通過上述的公式,我們可以計算得到,組2相比于組1轉化率差值的95%置信區間為:(-1%~11%)

同時,Z值為1.66<1.96,Z檢驗的結果不顯著,可見,雖然組2的轉化率看上去比組1高,但差異并不顯著,兩組方案之間的效果差異可能存在很大的波動,組1的方案效果可能會高于組2。

我們現在為組2補了40個用戶,發現組2的轉化率仍為10%,按照組2的樣本量為140個,轉化率10%來重新計算95%置信區間:(0%~10%)

Z值約等于1.96,Z檢驗的結果顯著,說明兩種活動方案的轉化率有明顯差異,組2方案的轉化率有95%的概率比組1高。

現在,我們知道了為什麼當Z值>1.96時,證明差異在95%的置信度上顯著了,Z檢驗其實就是比較Z值和這裡的Zα/2

當Z值足夠大時,兩個總體均值差的下限就會遠大于0,說明兩個總體具有明顯的差異。

至此,各位看官不妨試一試,看看你的AB測試結果真的靠譜嗎?

作者:Mr.墨叽,公衆号:墨叽說數據産品

本文由 @Mr.墨叽 原創發布于人人都是産品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved