大家好,給大家介紹一下,這是在A/B測試起到奠基作用的依據@抽樣。
最近在微信公衆号的後台陸陸續續收到了不少熱心小姐姐小哥哥的問題,有關心我們流量層具體運作原理這樣比較高端領域的,也有關心A/B測試基本能力是否真如傳說中那樣強大的。
有位小姐姐問到了抽樣這個詞,引起了我的深思思想者狀沉思ing,仔細想了想,目前已有的資料裡面,對于A/B測試最最基本的組成部分:抽樣,好像鮮有提到。不僅如此,大量的新手教程啦入門指導啦各個案例什麼的,都是在從更高的角度解讀A/B測試,沒什麼資料從根源講解A/B測試一個緻命的關鍵點……
1. 從根源出發:深挖抽樣
在統計學中,平均數是反映數據集中趨勢的一項指标,一般通過将一組數據集中所有數據之和除以這組數據集的數據個數得到。在A/B測試中,我們無法知道所有用戶的行為(如點擊率)的真正均值——如果每次做活動、每次做版本叠代的時候,都将測試面向所有用戶的話,且不說動用的人力物力,一旦其中有什麼版本效果不好,比如大幅度降低了點擊之類,帶給企業的影響将是災難性的。舉個栗子,一個APP如果有一萬名用戶,假設五千人測試版本A,五千人測試版本B,這樣固然可以知道AB之間孰優孰劣,但是如果A的效果極差(比如引起用戶删除應用),那麼使用A版本的五千人豈不是……簡直是災難——因此,必須通過抽樣,抽取一部分具有代表性的用戶來測試不同版本的效果(例如均值),從而基于抽樣數據進行統計分析。一般來說,我們抽樣的樣本數越多,方差也會逐漸變小,從而使抽樣樣本的均值和真正均值之間的誤差降低。
這事兒說起來簡單,但是有個很緻命的要求:要保證所抽取的樣品單位對全部樣品具有充分的代表性。不然可不能确保數據分析的結果是否準确。這就需要從這三大方面來保證:
相似性
很重要也最複雜的一點。相似,指的是用戶群體各個維度的群體特征相似。用戶使用的機型是手機還是平闆、系統的版本是iOS幾還是安卓幾點幾,目前的應用版本是幾點幾甚至使用的語言是中文還是英語法語日語之類的外語之類,都是區分不同用戶群體的指标。舉個栗子,某APP針對手機用戶有一項活動,那麼在測試的時候如果放任平闆用戶參與,就失去了活動的意義不是嗎。相似性,正是為了确保被抽取的部分用戶足以代表整個用戶群而提出的。但這并不簡單,實際上,分割各個用戶群的标準是什麼?是客戶的需求。因為隻有按照客戶要求進行區分的用戶群才有價值,如何讓客戶随心所欲區分用戶群,才是相似性複雜的地方。
唯一性
最重要的一點,每個用戶分配到的試驗版本得是唯一的。舉個栗子,為了推廣某項服務,某APP推出了兩個版本A和B,分别用不同的界面來推銷這款服務。陸仁甲在測試期間登錄APP,看到了版本A,覺得A給出的這個界面非常不錯,于是充值打算購買這個服務,但因為有别的事情于是隻好先關閉了應用。過了一段時間,他又登錄了,但是卻看到了版本B。“我去這什麼界面設計,太難看了”對于版本B感到反感的他,為了購買在A中看到的服務,隻好被迫在B裡面點擊了購買按鈕……且不說由于版本來回變換帶來的不良用戶體驗,更别提這種類似于刷數據一樣bug,光是同一用戶的重複測試就已經導緻測試結果不可信了不是嗎,陸仁甲是被迫在版本B中提高了點擊,這将計入B的點擊轉化,但是實際上他喜歡的是A啊(A:是我,是我先,明明都是我先來的)。如果因此判斷B比A好而發布版本B……那畫面太美我不敢看
均勻性
既然是抽樣實驗,那麼抽取的樣本量就必須一緻,這樣才有對比性。這就跟初中高中物理裡面用的控制變量法似的,保證單一變量(版本AB)有變化,而其他變量要保持一緻。實現這一點的重要倚靠是分配流量是否真如所願一般分配。就比如,一個有十萬用戶群的APP,能不能做到給AB各分配2%的流量時,進入這兩個版本的用戶真的都是是在2000人附近。
2 回到根源,如何滿足三大性質
滿足了這三個點,才敢說A/B測試真正有價值。Testin A/B測試從創始之初就緻力于讓抽樣經得住考驗,在這三方面不敢說曆經考驗,但起碼是經得起考驗,受到諸多用戶的一緻好評。讓我們從三個方面一個個來看Testin是怎麼做的:
在相似性方面
首先基于SDK自動采集來使用聚類分析分割用戶群,确保各個維度的群體特征相似,例如不同用戶群的機型比例、語言比例等都會相似,以免幹擾試驗結果可信度。而在“讓客戶随心所欲區分用戶群”這一點上,則在兼顧靈活性的基礎上做到了精确定向。通過允許客戶添加各類用戶标簽,Testin A/B測試可以依此實現精準定向分流,客戶隻要設置相應的用戶标簽(例如性别、年齡等,需要上傳),就可以在分配流量(分流)的時候自動完成用戶群分割,簡單高效。
用于分割用戶群的用戶标簽
在唯一性方面
為确保每個用戶不被重複計入測試,我們通過精準且高效的Hash算法,确保單個用戶每次登錄應用時被分到的試驗版本是唯一的
在均勻性方面
技術上運用了安全哈希算法SHA 1,經過數個月的實戰檢測,實際分流效果非常接近目标流量分割比例,且用戶量越大分流結果越精确。并且,不止于此,Testin A/B測試依仗精準的分流效果,允許用戶随時在試驗的進行過程中調節試驗版本之間的流量分配比例,你要2%,那麼進入測試的就隻有2%的用戶,你要50%,也就隻有50%的用戶接受測試。
可調節的精确分流
很高興你能看到這裡嗷!好有耐心的,贊相似、唯一、均勻,在抽樣上要滿足的三點即是Testin能夠在行業中站穩腳跟的關鍵。尤其是相似性,是測試中容易被忽視但卻又不容忽視的重中之重。對于任何一位想要切實提高産品效益的運營和PM來說,使用的A/B測試工具是否具有精确分割用戶群的能力都是能否做好A/B測試的一個緻命的關鍵點。
作者:一顆糯米C,公衆号:雲測數據(testindata),數據驅動增長的堅定實行者
本文由 @一顆糯米C 原創發布于人人都是産品經理。未經許可,禁止轉載。
題圖來自 Pexels,基于 CC0 協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!