tft每日頭條

 > 生活

 > 連續整數檢測算法一般從什麼開始

連續整數檢測算法一般從什麼開始

生活 更新时间:2025-02-05 10:42:09

連續整數檢測算法一般從什麼開始?當你的試驗已經跑了一段時間之後,需要通過分析數據來看不同版本的行為數據表現,從而決策出最優版本那麼如何才能在已有數據基礎上,進行科學可信的統計推斷呢?我們将采用置信區間這個工具它是與P-value相關的一個概念,但比P-value給出的信息更多所以這一章,我們就将詳細介紹置信區間的概念、計算方法以及它在A/B測試中的意義,下面我們就來聊聊關于連續整數檢測算法一般從什麼開始?接下來我們就一起去了解一下吧!

連續整數檢測算法一般從什麼開始(B測試算法大揭秘第四篇)1

連續整數檢測算法一般從什麼開始

當你的試驗已經跑了一段時間之後,需要通過分析數據來看不同版本的行為數據表現,從而決策出最優版本。那麼如何才能在已有數據基礎上,進行科學可信的統計推斷呢?我們将采用置信區間這個工具。它是與P-value相關的一個概念,但比P-value給出的信息更多。所以這一章,我們就将詳細介紹置信區間的概念、計算方法以及它在A/B測試中的意義。

置信區間的概念

置信區間(Confidence Interval)是用來對一個概率樣本的總體參數進行區間估計的樣本均值範圍,它展現了這個均值範圍包含總體參數的概率,這個概率稱為置信水平。

置信水平代表了估計的可靠度,一般而言,我們采用 95% 的置信水平進行區間估計。

置信區間的計算方法

根據統計學的中心極限定理,樣本均值的抽樣分布呈正态分布。

由之前介紹的t檢驗大樣本檢驗公式計算得出Z值,再根據兩個總體的均值、标準差和樣本大小,利用以下公式即可求出兩個總體均值差的95%置信區間。

置信區間在A/B測試中的意義

置信區間的不同表現,可用作判斷試驗結果顯著與否的标準:在試驗運行一段時間之後(一般來說是1-2周),如果置信區間的上下限同為正,說明試驗結果是統計顯著的,并且試驗版本優于對照版本;如果同為負,試驗結果也是統計顯著的,且對照版本優于試驗版本;如果置信區間為一正一負,則說明版本間差異不大。

舉個例子,當兩個不同版本都以7%的小流量運行時,A版本的用戶總數(樣本大小)為33771,均值為23.01,标準差為53.21;B版本的用戶總數(樣本大小)為34190,均值為22.11,标準差為50.21。

我們可以計算出這兩個均值比較得到的變化百分值為-3.9%,但這隻是根據兩個點估計計算出的新的點估計,是有誤差的,所以我們就必須找到一個概率範圍,來準确描述結果。

計算出Z值為2.28,再根據置信區間的計算公式,我們可以得出結果為-1.678,-0.112,即這個區間有95%的可能性包含兩個總體均值之差。為了更直觀,我們把這個總體均值差的置信區間轉換為相比A版本均值變化的百分比置信區間,即-7.3%,-0.5%。這時候我們就可以評價試驗的結果為:B版本不如A版本,并且有95%的可能性是差了0.5%到7.3%之間。

值得注意的是,置信區間同為正或負,隻能說明試驗是統計顯著的(也就是試驗版本和對照版本有差異),但是這個差異有可能是非常小的,在實際應用中微不足道的。因此,隻有兼備統計顯著和效果顯著兩個特征的結果,才能說明該版本是可用,值得發布的。

至于如何判定結果是否是效果顯著,則需要結合我們在下一章中介紹的統計功效來綜合考量了。

作者:吆喝科技,微信公衆号(appadhoc)。

本文由 @吆喝科技 原創發布于人人都是産品經理。未經許可,禁止轉載。

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved