“
頻繁應用在産品運營的各類場景中的數據分析方法主要分為兩類:描述分析和推斷分析
”
本文主要介紹描述分析中描述性統計分析的相關知識點,包含理論知識、案例說明和基本操作。
01
—
描述分析與推斷分析
02
—
描述性統計
作為一名數據同學,每天到公司的第一件事情就是制作和看各種各樣的報表以了解産品運營的情況。特别是當我們打開一份有十幾列,幾萬行的明細數據時,那種感覺真的是鋪天蓋地,頭暈目眩。
面對令人崩潰的場景,我們需要快速找到數據的特征。描述性統計正是為此而生,我們通過常用的分析工具就可以快速建立業務的整體認知,并幫助我們尋找業務分析的突破口。
常用的三個分析工具分别是:
03
—
用中位數和平均數
來分析數據分布
01 數學定義和業務含義中位數和平均數的數學含義很簡單,這裡重點說明一下平均數的特點:極易受極大值或極小值的影響,從而變得不客觀,所以在計算平均數時,一般都要看這組數據的最大值和最小值是否偏離太大,如果偏離太大需要提出再計算平均值。
譬如,要評估11月中30天的日均銷售額,顯然雙11極高的銷售額會把整月的日均銷售額拉高,無法真實反應11月的日均銷售額。所以需要剔除雙11的數據後再計算11月的日均銷售額。
平均數一般包含算數平均數和幾何平均數,算數平均數是将N個數據相加後除以N;幾何平均數是将N個數相乘後再開N次方。
特别需要強調的是,算數平均數和幾何平均數的适合場景完全不同。
中位數和平均數通常結合起來使用,通過比較中位數和平均數的大小,判斷數據的分布是偏大還是偏小。
平均數>中位數
平均數<中位數
在電商行業中經常需要分析不同品類的銷售情況。
由上表可以看出,産品A和産品B的累計銷售量完全一樣,日均銷售量也是一樣,僅僅看這兩個指标無法得出任何業務上的結論;但是我們嘗試查看産品的平均數和中位數。
04
—
用方差和标準差
來分析指标波動情況
01 數學定義和業務含義
方差,是指數據的離散程度,是一組數據與這組數據平均值之差的平方值的平均數;而标準差,是方差的開放差。這些都是簡單的基本概念,我們了解下方差和标準差的業務含義。
02 使用指南
方差和标準差的使用非常簡單,隻需要留意兩點就可以:
因為方差會将數據微小的波動放得很大,所以在某些情況下方差數據可以到8位甚至9位數,這對視覺體驗非常不友好。所以更多數情況下我們考察标準差,因為數字顯示的不是太大,同時具備業務含義。
03 應用實例
渠道是重要的獲客方式,渠道的獲客穩定性非常重要,波動過大的渠道一般其客群質量也不會太高,對于産品而言會造成獲客資源的浪費,以及加大後續運營資源的壓力。如果要評估渠道的獲客穩定性,那麼我們就要用方差/标準差來評估。
例如,要分析如下三個渠道的新增用戶穩定性,考察其每日新增用戶數的方差,看看能否得出有趣的結論。
從上表可以看出,僅分析這三個渠道的累計新增用戶數、日均新增用戶數無法得出任何業務結論,同時分析各個渠道自己的平均值和中位數也難以評估渠道的獲客穩定性。
所以,我們用方差來計算,分别計算這三個渠道的每日獲客量的方差和标準差:
渠道 A 的每日新增用戶數的方差是 305.6,标準差是 17.48;
渠道 B 的每日新增用戶數的方差是 834.6,标準差是 28.89;
渠道 C 的每日新增用戶數的方差是 630.6,标準差是 25.11。
于是,我們發現:因為渠道 B 的每日新增用戶數方差和标準差最大,可以認為在這 3 個渠道中,渠道 B 的獲客能力波動最大,穩定性最差,後續的風險也在 3 個渠道中最高(相對),接下來的運營需要更多的關注渠道 B 的運營情況;而渠道 A 和渠道 C 的獲客能力相對波動較小,獲客較穩定,保持中優先級的關注即可。
05
—
用分位數和異常值
來尋找異常數據
1.數學定義和業務含義
分位數,是指将一組有序數據分為幾個具有相同長度的區間,常用的有中位數、四分位數等。
統計學中,把所有數值由小到大排列并分成四等份,處于三個分割點位置就是分位數,通常用 Q1、Q2、Q3 來表示一分位(前25%)、二分位(前 50%)、三分位(前 75%),其中二分位數就是中位數。
異常值,即在數據集中存在過高或過低的值。特别注意的是,當我們說“這個月 DAU 的最大值是 190 萬”,其中的“最大值”是指剔除異常值後剩下數據中的最大值(最小值也同理)。
注意:異常值并不一定是最大值或最小值,它一般也不參與正常業務讨論的範疇。
所以剛才這句話應該說“這個月 DAU 的最大值是 190 萬,同時我們發現 1月9日 DAU 異常高,超過 270 萬”。
【異常值篩選算法】
在統計學中,通常用分位數來确定正常值區間,并篩選出異常值,篩選算法如下:
若數據大于 Q3 1.5(|Q3-Q1|) ,則數據為異常值;
若數據小于 Q1-1.5(|Q3-Q1|) ,則數據為異常值;
若數據在 Q1-1.5(|Q3-Q1|)~Q3 1.5(|Q3-Q1|) 之間,則為正常值。
其中 |Q3-Q1| 也叫分位距或分位差,用 IQR 來表示。
感興趣同學了解即可,這裡不再深入講原理。
【異常值的業務含義】
計算任何平均值前,都必須要提出異常值後才能進行;
異常值,通常需要單獨排查和分析,在很多互聯網公司都會設置一個職位專門跟進分析異常值,它們叫 Bad Case;
異常值不能說好,也不能說不好,要根據實際業務情況來看。雙 11 這天的銷售數據,對比其他日期的銷售,顯然是一個異常值。但對于這個異常值,當然希望越大越好,也就是越異常越好。
02 使用指南
在異常值的算法中,IQR 前面的系數是重要的運營手段。在實際工程應用中,IQR 前面的系數 1.5 被認為是一個經驗值,可根據業務實際情況在 1.0~2.0 之間調節,越大意味着異常值标準越寬松,越小意味着異常值标準越嚴格。
為了找出正常值範圍以及異常值,除了用基于 IQR 的算法外,還可以通過箱線圖更直觀地找出異常值。
上圖即是标準的箱線圖,其中遊離在外的點即表示異常值,同時還能從箱線圖解讀出更多信息:
可以直接看到中位數和平均值所在的位置,便于快速評估中位數和平均值的大小;
可以通過箱子的高度,定性地判斷方差大小,箱子高度越高,方差越大,反之越小;
可以看到正常值的範圍,上下限之間即是正常值範圍。
箱子越高,方差越大的原因在于:箱子的高度是 Q3-Q1,也叫 IQR 分位距。IQR 越大,意味着這組數據的範圍被拉得很寬,也就意味着分布得越散,也就意味着方差/标準差越大。
03 應用示例渠道是重要的獲客資源,其獲客能力的趨勢非常重要。若要分析如下三個渠道的新增用戶情況,考察其每日新增用戶數有無異常情況,看看能否得出有趣的結論。
我們為這三個渠道做了如下箱線圖,可以看出:
操作:在 Excel 中實現描述性統計
Excel 作為最重要的數據分析平台,已内置了描述性統計的所有分析工具,能夠簡單快速地完成上述分析,并且結果極易解讀。
第一步:點擊“數據”選項卡,點擊“數據分析”。
第二步:點擊“描述統計”。
注意:若數據列第一行為标題,請勾選“标志位于第一行”。
第五步:點擊“确定”,即可完成。
如下圖所示,這裡将平均數、标準差、方差、最大值、最小值等描述性統 所需要的數據均清晰展出。
2.用 Excel 的“箱線圖”分析異常值
在前文講述分位數和異常值的算法時,可以通過計算公式和箱線圖兩種方法來尋找異常值。事實上,Excel 也提供了箱線圖工具來幫助我們快速查找異常值。
第一步:選擇要分析的數據。
第二步:點擊“插入”選項卡,點擊圖表區域的“箱形圖”,完成
注意:如果圖表區域無此圖标,請升級 Excel 至 Office 2019 及以上版本。
---------------------------------------------------------END-----------------------------------------------------------------
感謝閱讀,感興趣的同學可以通過以下簡單的思維腦圖回顧知識點:
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!