編輯導語:AB測試思想對于産品經理來說十分重要,本篇文章作者講述了産品經理實施AB測試的具體方法,詳細地講述了AB測試的具體流程,以及其中的注意點,感興趣的一起來學習一下吧。
如果你随便拿起一本産品經理相關的書籍,然後翻開來讀的話,你會發現,它們都會不約而同地提到一個名詞“AB測試”。
其中的“佼佼者”《增長黑客》,更是“有過之而無不及”,因為A/B測試的思想徹徹底底貫穿這本書:無論是UI元素(字體、顔色、布局),産品功能,抑或是AARRR流程,都能看到A/B測試的影子。
這或許也是俞軍在《俞軍産品方法論》中寫道“産品工作屬于強實踐性的社會科學”的一個原因吧。關于AARRR流程的介紹請參考這篇文章《産品是門高實踐性學科》。
AB測試将分成兩篇文章,分别将從産品和統計學兩個方面介紹AB測試,适合想了解AB測試具體實施流程,以及探究AB測試背後統計學原理的同學閱讀。
一、AB測試流程
下面以一個電商産品為例,介紹如何開展A/B測試。
1. 實驗背景
背景:某電商app首頁商品點擊率較低,産品團隊急需解決這個問題。
提出想法:産品團隊通過用戶調研、競品分析、數據分析等方式找到了幾個可能的問題,并針對這些問題給出了設計方案,具體包括使用推薦算法、增加商品展示數量、發放優惠券、增加購物清單功能等。
優先級排序:由于提出的想法較多,而現有的資源有限,因此需要确定優先級,選擇優先級最高的想法進行實驗。
比如可以按照“ICE評分體系”,即Impact(影響力,即想法對關心的指标的提升程度)、Confident(信心,想法提出者對想法産生預期影響的信心)、Ease(簡易度,進行一項實驗所需要的時間和資源)。
三項分别打分之後,再相加平均便得到一個想法的綜合得分。通過評分後發現增加商品展示數量的優先級最高,因此選擇這個想法進行實驗。具體評分如下:
業務背景:商品展示頁展示的商品數較少,産品團隊希望通過增加商品展示數量提升轉化率。
業務目的以及期望:希望通過商品展示頁的改版(原先一次隻展示一張圖片,新的版本一次展示兩張圖片),提升用戶整體的點擊轉化率。
2. 實驗設計
- 實驗目的:通過商品展示頁的改版,提升用戶整體點擊率。這裡有兩點需要注意,第一點是指标的選擇,這裡選擇了點擊率,可以了解一下常用的指标有哪些;第二點是預期值的确定,到底提升多少才能達到預期。以谷歌為例,他們認為2%就是一個很大的提升。這裡我們采用谷歌的标準,即當實驗組比對照組至少提升2%的效果。
- 實驗受衆:打開App首頁的用戶。
- 自變量:實驗組展示改版後的電子商城首頁,展示的産品更多,對照組展示改版前的首頁。
- 自變量取值:商品展示頁是否改版。
- 因變量:點擊率(點擊商品的人數占進入首頁總人數的比例)。
3. 實驗樣本及實驗時長的确定
AB實驗需要用到随機抽樣,也就是随機從産品的用戶中選擇一部分,那麼要選取多少呢。
想象一下,某工廠剛生産了一萬件零件,現在想要測試這批零件是否合格,那麼要選擇多少樣本進行檢測呢?一件、兩件還是一萬件?
選擇的樣本太少,恐怕沒有說服力;選擇的樣本太多,成本又太高。最好的方法其實是在滿足統計學意義後,樣本要盡量的少。
下面的公式給出了樣本數量的計算方式,如果你看不懂,可以直接略過,知道有方法計算就好。
為确定樣本數量,我們先要确定三個值,即顯著性水平或第一類錯誤概率alpha一般取值為0.05或0.1,第二類錯誤概率beta,一般取值為0.1或0.2,以及實際想要達到的效果,比如點擊率提升2%。
其中,
- Delta表示預期的提升,在這個例子中,我們期望提升2%;
- sigma表示樣本方差,在比率的情況下,sigma^2=p(1-p),p是樣本的某一比率,比如現在首頁産品的點擊率為67%;
- alpha第一類錯誤概率,一般取值為5%或1%;
- beta第二類錯誤概率,一般取值為0.1或0.2;
- z:正态分布累計概率為x時對應的分位數。
假設過去兩周内,平均每天有50000人打開過我們的app,若分成了四組實驗,每組實驗的流量不一樣,要保證獲得流量最小的那組達到最小樣本所要求的數量。
比如,流量最小那組占總流量的20%,即50000*20%=10000,而最小樣本數量為26000,因此至少需要26000/10000=3天。由于周末會影響實驗,所以一般會取整周時間;同時,要考慮節假日以及特殊的事件。
4. AA實驗
AA實驗:指的是實驗組和對照組所執行的策略是一樣的,用于判斷分組方式是否引起顯著的差異。如果A/A實驗的結果也是顯著的,說明實驗方式本身會造成差異,因此A/B實驗的結果應當結合A/A的結果做校正分析。如果A/A實驗的結果不顯著,那麼A/B實驗的結果無須校正。
5. 實驗上線
實驗上線分為兩部分,第一部分是數據的獲取。如果現有的數據能滿足我們的實驗需求,就不需要做什麼;否則可能會增加數據埋點,以獲取所需數據;第二部分是流量控制,讓用戶在進入首頁時,劃分到相應的實驗組和對照組,比如根據用戶ID的奇偶性分組。
6. 實驗結果分析
在實驗周期結束,拿到數據後,就需要進行數據分析,主要是計算統計值,以判斷實驗結果在統計學上是否具有顯著性,從而進行決策。至此,一個完整的A/B實驗流程結束。
二、後續:關于指标的選擇數據指标從業務上可以分為用戶數據指标(比如日新增用戶數、用戶活躍率,用戶留存率),用戶行為數據指标(PV、UV、轉化率)以及産品數據指标(GMV、客單價、複購率);
數據指标從數學定義可以分為分布相關(平均數、中位數)、概率和比例(用戶點擊的概率)、比率(兩個數做除法)及求和計數等。
在選擇指标時,要保證選擇的指标是一個具有高靈敏度的指标,這意味着這個指标可以捕捉到你所關心的變化。
同時,當你不感興趣的事情發生時,指标不會發生很大的變化。
如果一個指标太敏感,那麼它就不夠穩健,因此在這兩者之間有一個平衡點,你需要研究一下數據,找出要使用的指标。可以使用AA測試進行檢驗。
本文由 @Clarence 原創發布于人人都是産品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!