A/B測試是一種互聯網常用的對比試驗,在試驗過程中,我們從總體中抽取一些樣本進行數據統計,進而得出對總體參數的一個評估。實際上是統計學上假設檢驗(顯著性檢驗)的一種應用。
基本思想
首先,讓我們用大白話理解一下這個什麼是假設檢驗
統計假設檢驗意味着沒有任何檢驗可以百分百确定,因為我們依靠概率進行試驗。
假設檢驗的基本思想是“小概率事件”原理,小概率思想是指小概率事件在一次試驗中基本上不會發生。
小概率事件:有一天你突然發現你的遠房親戚是億萬富豪,他還想把遺産給你。
因為是小概率事件,我們認為這基本不會發生,那麼就踏踏實實工作吧。
假設檢驗的統計推斷方法是帶有某種概率性質的反證法。反證法思想是先提出檢驗假設,再用适當的統計方法,利用小概率原理,确定假設是否成立。
檢驗一個假設H0是否正确,首先假定該假設H0正确,然後根據樣本對假設H0做出接受或拒絕的決策。如果樣本觀察值導緻了“小概率事件”發生,就應拒絕假設H0,否則應接受假設H0
H0(原假設):遠房親戚是億萬富豪,他想把遺産給你
H1(備擇假設):H0不對
樣本觀察值顯示,H0發生的概率很小,是“小概率事件”
那麼拒絕H0。
可以發現,原假設是想要推翻的假設,備擇假設才是我們想要的結果。
将基本思想應用到A/B測試在A/B測試過程中,因為我們試驗的目的是通過反證法證明測試版本和對照版本有明顯的不同(更好)。
比如一個網頁,用紅色背景(測試版本B)要比綠色背景更好(對照版本A)。
H0:原始版本和試驗版本無差異(A=B)
HI:這兩個版本存在差異(A≠B)
(原假設是想要推翻的假設,備擇假設才是我們想要的結果。)
假設檢驗的兩類錯誤因為我們依靠概率進行試驗,所以必然會出現失誤。
哪怕“遠房親戚是億萬富豪,他想把遺産給你”有99.99999……999%的概率不可能發生,但是一旦0.0000000……01的可能性發生了,那就是發生了。
錯誤有兩類:
⑴ 第一類錯誤:棄真錯誤
- 在原假設為真時,決定放棄原假設,稱為第一類錯誤,其出現的概率通常記作α;
- A/B:2個版本無差異時候,我們錯誤的認為他們有差異
我們會預先設定一個數比如α 是0.05,如果一件事發生的概率隻有5%,那就認為是小概率,就會把它拒絕。但是,有可能真實的情況就落在這5%之中。
目标:假設要增加網站上顯示的橫幅廣告的轉化次數。為了解決這個問題,計劃添加圖片,查看它是否增加了轉化次數。
A/B測試:對包含圖像的版本(B)運行控制版本(A)的A / B測試。5天後,變體(B)的轉化率驚人地提高了25%,置信度為85%,超過了對照版本。
于是,我們在橫幅中實現圖像。但是,一個月後,逐月轉換實際上減少了。
這是因為遇到了第1類錯誤:從長遠來看,新版本實際上沒有超過控制版本。
⑵ 第二類錯誤(取僞錯誤):
- 在原假設不真時,決定不放棄原假設,其出現的概率通常記作β
A/B:2個版本有差異時候,我們認為他們沒有差異
經營一家電子商務商店,為了增加轉化次數,可以在産品頁面下方實施常見問題解答。
A/B測試:結果顯示,您兩個版本的轉換速度似乎相同,因此接受假設,并保持産品頁面不變。
結果,競争對手同時實施了一個常見問題解答,轉化率出現了正增長。
這是因為遇到了第2類錯誤:其實,新版本超過了控制版本,但沒有采用。
- 樣本量、顯着性水平的選擇(α)、方差等都會對第二類錯誤發生的概率産生影響。
總結
按照假設檢驗的思路,對AB兩個版本提出假設,H1是我們想要的假設(B和A有差異),H0是要拒絕的假設(無差異)。
第一類錯誤,原假設為真時,決定放棄原假設(B版本不好,但換了B版本)
第二類錯誤,原假設不真時,接受原假設(B版本更好,但沒換B版本)
橫軸:現實情況 縱軸:估計情況
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!