tft每日頭條

 > 科技

 > 運營用到的數據分析

運營用到的數據分析

科技 更新时间:2024-10-05 15:25:01

頻繁應用在産品運營的各類場景中的數據分析方法主要分為兩類:描述分析和推斷分析

運營用到的數據分析(數據化運營數據分析方法之描述性分析)1

本文主要介紹描述分析中描述性統計分析的相關知識點,包含理論知識、案例說明和基本操作。

01

描述分析與推斷分析

  • 描述分析主要用于分析數據的整體情況,重點着眼于分析數據本身的分布和特征,主要包括描述性統計、多維分析和相關性分析等分析方法。例如在分析産品的DAU時,通常用描述分析對DAU的分布、趨勢和組成進行初步分析,以了解掌握DAU的總體特征情況。一般而言,拿到一份數據或者報表時,通常首先進行描述性分析,看看整體情況如何後再進行其他更加深入的分析。
  • 推斷分析主要通過分析少量數據的特征,來推斷整體數據特征的方法,主要包括方差分析,樣本檢驗和趨勢預測。例如,判斷影響營銷活動效果的有效因素、分析對指定客群投放營銷活動後的真實效果、A/B測試中選取的客群能否代表整體用戶特征等等,這些都是推斷分析去解決的場景。一般而言,推斷分析是在描述分析之後,深入探索數據特征,尋找數據歸因的重要分析方法。

02

描述性統計

作為一名數據同學,每天到公司的第一件事情就是制作和看各種各樣的報表以了解産品運營的情況。特别是當我們打開一份有十幾列,幾萬行的明細數據時,那種感覺真的是鋪天蓋地,頭暈目眩。

面對令人崩潰的場景,我們需要快速找到數據的特征。描述性統計正是為此而生,我們通過常用的分析工具就可以快速建立業務的整體認知,并幫助我們尋找業務分析的突破口

常用的三個分析工具分别是:

  • 中位數/平均數
  • 方差/标準差
  • 異常值并且還提供了一個分析圖表---箱線圖來輔助分析。

03

用中位數和平均數

來分析數據分布

01 數學定義和業務含義

中位數和平均數的數學含義很簡單,這裡重點說明一下平均數的特點:極易受極大值或極小值的影響,從而變得不客觀,所以在計算平均數時,一般都要看這組數據的最大值和最小值是否偏離太大,如果偏離太大需要提出再計算平均值。

譬如,要評估11月中30天的日均銷售額,顯然雙11極高的銷售額會把整月的日均銷售額拉高,無法真實反應11月的日均銷售額。所以需要剔除雙11的數據後再計算11月的日均銷售額。

平均數一般包含算數平均數和幾何平均數,算數平均數是将N個數據相加後除以N;幾何平均數是将N個數相乘後再開N次方。

特别需要強調的是,算數平均數和幾何平均數的适合場景完全不同。

  • 算數平均數适用于指标是絕對值的數據,例如計算近30天日均DAU、日均新增訪客、月均收入等都是可以使用算數平均數。
  • 幾何平均數适合指标是百分比的數據,例如計算不同渠道的平均轉化率、不同客群的平均留存率、不同品類的平均付費率、月均增長率等,隻能用幾何平均數來計算。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)2

02 使用指南

中位數和平均數通常結合起來使用,通過比較中位數和平均數的大小,判斷數據的分布是偏大還是偏小。

平均數>中位數

  • 數據中偏大的居多,擡高了整體的均值,導緻平均數大于中位數;
  • 也或者是,數據中出現了極個别的極大值,擡高了整體的均值,導緻平均數大于中位數。

平均數<中位數

  • 整體數據偏小的居多,降低了整體的平均值,導緻平均數小于中位數;
  • 或者數據中出現了極個别的極小值,拉低了整體的均值,導緻平均數小于與中位數。
03 應用示例

在電商行業中經常需要分析不同品類的銷售情況。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)3

由上表可以看出,産品A和産品B的累計銷售量完全一樣,日均銷售量也是一樣,僅僅看這兩個指标無法得出任何業務上的結論;但是我們嘗試查看産品的平均數和中位數。

  • 産品A的日均銷售額為281.11,每日銷售額中位數為234,即平均數大于中位數。意味着産品A的每日銷售額偏高的居多,可能是産品A某一天的銷售量很高,可能是産品A的客單價較高,拉高了平均數。
  • 産品B的日均銷售量為281.11,每日銷售量的中位數是315,即平均數小于中位數。意味着産品B的每日銷售額偏低的居多,可能是産品B某一天的銷售量較低,可能是産品B的客單價較低,拉低了平均數。

04

用方差和标準差

來分析指标波動情況

01 數學定義和業務含義

方差,是指數據的離散程度,是一組數據與這組數據平均值之差的平方值的平均數;而标準差,是方差的開放差。這些都是簡單的基本概念,我們了解下方差和标準差的業務含義。

  • 方差和标準差代表了業務指标的波動情況,即業務穩定性的高低,也即業務經營風險大小;
  • 當方差和标準差變小,意味着指标變動大,業務穩定性降低,業務經營風險提高;
  • 當方差和标準差變小,意味着指标波動變小,業務穩定性升高,業務經營風險降低;
  • 方差和标準差可以将微小的變化顯著放大,即更加直觀和更加直接的觀察業務經營風險。

02 使用指南

方差和标準差的使用非常簡單,隻需要留意兩點就可以:

  • 方差沒有量綱,即沒有任何單位,不具備任何業務含義,就是一個純數字。不能說11月的銷售額方差是多少萬元,隻能說方差是多少數字。所以單看一個方差沒有任何業務價值,從變化中找到可能的數據問題。例如,連續兩周的每周的DAU方差都在變大,意味着DAU的波動不斷變大,背後的原因或者是投放的運營活動數量和節奏出現問題,或者是産品穩定性出現問題,或者外部競品搶用戶等等。
  • 标準差有量綱,即有單位,有業務含義,我們可以說11月的銷售額标準差是5.5萬元。但看标準差同樣沒有任何意義,仍然需要通過各種對比來看标準差的變化來從中發現問題。

因為方差會将數據微小的波動放得很大,所以在某些情況下方差數據可以到8位甚至9位數,這對視覺體驗非常不友好。所以更多數情況下我們考察标準差,因為數字顯示的不是太大,同時具備業務含義。

03 應用實例

渠道是重要的獲客方式,渠道的獲客穩定性非常重要,波動過大的渠道一般其客群質量也不會太高,對于産品而言會造成獲客資源的浪費,以及加大後續運營資源的壓力。如果要評估渠道的獲客穩定性,那麼我們就要用方差/标準差來評估。

例如,要分析如下三個渠道的新增用戶穩定性,考察其每日新增用戶數的方差,看看能否得出有趣的結論。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)4

從上表可以看出,僅分析這三個渠道的累計新增用戶數、日均新增用戶數無法得出任何業務結論,同時分析各個渠道自己的平均值和中位數也難以評估渠道的獲客穩定性。

所以,我們用方差來計算,分别計算這三個渠道的每日獲客量的方差和标準差:

渠道 A 的每日新增用戶數的方差是 305.6,标準差是 17.48;

渠道 B 的每日新增用戶數的方差是 834.6,标準差是 28.89;

渠道 C 的每日新增用戶數的方差是 630.6,标準差是 25.11。

于是,我們發現:因為渠道 B 的每日新增用戶數方差和标準差最大,可以認為在這 3 個渠道中,渠道 B 的獲客能力波動最大,穩定性最差,後續的風險也在 3 個渠道中最高(相對),接下來的運營需要更多的關注渠道 B 的運營情況;而渠道 A 和渠道 C 的獲客能力相對波動較小,獲客較穩定,保持中優先級的關注即可。

05

用分位數和異常值

來尋找異常數據

1.數學定義和業務含義

分位數,是指将一組有序數據分為幾個具有相同長度的區間,常用的有中位數、四分位數等。

統計學中,把所有數值由小到大排列并分成四等份,處于三個分割點位置就是分位數,通常用 Q1、Q2、Q3 來表示一分位(前25%)、二分位(前 50%)、三分位(前 75%),其中二分位數就是中位數。

異常值,即在數據集中存在過高或過低的值。特别注意的是,當我們說“這個月 DAU 的最大值是 190 萬”,其中的“最大值”是指剔除異常值後剩下數據中的最大值(最小值也同理)。

注意:異常值并不一定是最大值或最小值,它一般也不參與正常業務讨論的範疇。

所以剛才這句話應該說“這個月 DAU 的最大值是 190 萬,同時我們發現 1月9日 DAU 異常高,超過 270 萬”。

【異常值篩選算法】

在統計學中,通常用分位數來确定正常值區間,并篩選出異常值,篩選算法如下:

若數據大于 Q3 1.5(|Q3-Q1|) ,則數據為異常值;

若數據小于 Q1-1.5(|Q3-Q1|) ,則數據為異常值;

若數據在 Q1-1.5(|Q3-Q1|)~Q3 1.5(|Q3-Q1|) 之間,則為正常值。

其中 |Q3-Q1| 也叫分位距或分位差,用 IQR 來表示。

感興趣同學了解即可,這裡不再深入講原理。

【異常值的業務含義】

計算任何平均值前,都必須要提出異常值後才能進行;

異常值,通常需要單獨排查和分析,在很多互聯網公司都會設置一個職位專門跟進分析異常值,它們叫 Bad Case;

異常值不能說好,也不能說不好,要根據實際業務情況來看。雙 11 這天的銷售數據,對比其他日期的銷售,顯然是一個異常值。但對于這個異常值,當然希望越大越好,也就是越異常越好。

02 使用指南

在異常值的算法中,IQR 前面的系數是重要的運營手段。在實際工程應用中,IQR 前面的系數 1.5 被認為是一個經驗值,可根據業務實際情況在 1.0~2.0 之間調節,越大意味着異常值标準越寬松,越小意味着異常值标準越嚴格。

為了找出正常值範圍以及異常值,除了用基于 IQR 的算法外,還可以通過箱線圖更直觀地找出異常值。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)5

上圖即是标準的箱線圖,其中遊離在外的點即表示異常值,同時還能從箱線圖解讀出更多信息:

可以直接看到中位數和平均值所在的位置,便于快速評估中位數和平均值的大小;

可以通過箱子的高度,定性地判斷方差大小,箱子高度越高,方差越大,反之越小;

可以看到正常值的範圍,上下限之間即是正常值範圍。

箱子越高,方差越大的原因在于:箱子的高度是 Q3-Q1,也叫 IQR 分位距。IQR 越大,意味着這組數據的範圍被拉得很寬,也就意味着分布得越散,也就意味着方差/标準差越大。

03 應用示例

渠道是重要的獲客資源,其獲客能力的趨勢非常重要。若要分析如下三個渠道的新增用戶情況,考察其每日新增用戶數有無異常情況,看看能否得出有趣的結論。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)6

我們為這三個渠道做了如下箱線圖,可以看出:

  • 渠道 A 的獲客能力排位第二,因為它的箱線圖位置在渠道 B 和渠道 C 之間,同時穩定性對比其他兩個渠道也較好,整體運營正常,并無異常值出現;
  • 渠道 B 的獲客能力排位第一,因為它的箱線圖位置最上,同時穩定性也最差,因為箱線圖中的箱體高度最高,整體運營正常,并無異常值出現;
  • 渠道 C 的獲客能力排位第三,因為它的箱線圖位置最下,同時整體運營有一定問題,因為出現了一個異常值,需要單獨排查原因,是否是拉新活動、渠道聯合活動等因素導緻的。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)7


操作:在 Excel 中實現描述性統計

Excel 作為最重要的數據分析平台,已内置了描述性統計的所有分析工具,能夠簡單快速地完成上述分析,并且結果極易解讀。

  1. 用 Excel 的“數據分析”工具包實現描述性統計

第一步:點擊“數據”選項卡,點擊“數據分析”。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)8

第二步:點擊“描述統計”。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)9

運營用到的數據分析(數據化運營數據分析方法之描述性分析)10

運營用到的數據分析(數據化運營數據分析方法之描述性分析)11

注意:若數據列第一行為标題,請勾選“标志位于第一行”。

第五步:點擊“确定”,即可完成。

如下圖所示,這裡将平均數、标準差、方差、最大值、最小值等描述性統 所需要的數據均清晰展出。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)12

2.用 Excel 的“箱線圖”分析異常值

在前文講述分位數和異常值的算法時,可以通過計算公式和箱線圖兩種方法來尋找異常值。事實上,Excel 也提供了箱線圖工具來幫助我們快速查找異常值。

第一步:選擇要分析的數據。

第二步:點擊“插入”選項卡,點擊圖表區域的“箱形圖”,完成

注意:如果圖表區域無此圖标,請升級 Excel 至 Office 2019 及以上版本。

運營用到的數據分析(數據化運營數據分析方法之描述性分析)13

---------------------------------------------------------END-----------------------------------------------------------------

感謝閱讀,感興趣的同學可以通過以下簡單的思維腦圖回顧知識點:

運營用到的數據分析(數據化運營數據分析方法之描述性分析)14

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved