編輯導語:當你在進行一項産品設計時,數據突然産生波動了,你會怎麼做?作者分享了自己是如何利用基尼系數進行數據波動自動歸因分析的方法,我們一起來看下吧。
日常工作中,數據同學經常會被老闆或業務問到“昨日XX指标波動50%,幫忙看下什麼原因?”,也有上來直接來一句“今天數據是不是有問題啊?”,數據同學心裡一驚,“我X,是不是集群延遲了?難道昨天修改邏輯,改出Bug了嗎?”
于是先去找到指标對應的數據任務,排查數據加工流程有無異常,檢查了一遍任務運行正常,各個環節數據無誤,松了一口氣。
開始分析波動原因,經過多個維度的拆解分析後,發現南京下降影響最大,結合最新公布的疫情信息,回複老闆/業務說,“昨日數據波動的主要原因是XXX,指标總體下降XX,其中南京下降XX,影響率XX”。一輪操作後,一上午過去了,既定的排期任務又要晚上加班搬磚了。
一、數據波動産生的原因業務數據不可能一成不變,尤其是互聯網業務發展迅速,業務指标也會不斷變化。數據的波動主要體現和對比日期(同比、環比等)出現上升或下降。
DAU、訂單數、營收等經營業績性指标重點關注下降,而退訂率、投訴率等服務性指标重點關注上升。當用戶反饋數據波動問題時,可以從以下幾個方面排查分析:
異常的判斷需要結合業務的屬性、發展階段、指标特征、對比的周期綜合确定評價标準。首先是指标評價的依據,即憑什麼說指标波動了,和曆史同期比通常的方式是對比分析(上一篇文章有詳細的同比、環比計算邏輯和常用場景)。
對于波動範圍,同是DAU指标,百萬級公司可能下降30%定為異常,而對于千萬級、億級的企業可能下降5%就需要分析下原因了。
因此,在數據産品設計時,需要對業務需求進行調研分析,确定指标異常的判斷标準。
三、數據産品異常歸因分析設計思路數據波動時,很多業務第一反應是“數據準不準”,尤其是當數據質量問題比較頻繁時,會降低業務對數據産品的信任度。
數據質量可以說是數據産品的生命線,沒數據時,業務可以基于經驗等多方考慮去決策,但如果數據質量有問題給業務帶來錯誤的決策引導,那就是好心辦壞事了。
因此,數據産品設計要考慮數據質量的把控,可以通過數據質量監控報警日報每日巡檢指标涉及的任務運行情況、數據生産鍊路的表的質量情況(一緻性、及時性、準确性、完整性監控),當監控體系覆蓋健全後,業務來質問數據問題時,就可以有底氣問業務上是否有什麼動作。
當監控發現數據質量異常時,數據人員第一時間進行問題排查和恢複處理,并且産品端通過調用質量監控結果的接口數據,進行異常提醒,降低錯誤數據對業務決策的負面影響。
數據質量保證沒問題後,第二步就是界定指标波動異常的标準了,一般有兩種方式,一是充分了解業務需求,将指标預警的規則,内嵌到産品實現邏輯中,好處是開發成本低,可以快速變現。
适合于規則變化不頻繁的場景,缺點是後期業務變化需要調整規則時,需要開發支持,且難以複用。第二種方式是建立統一的指标預警的配置化工具,業務可以按照自己需求場景設定預警的規則。
确定數據質量準确無誤後,指标波動異常分析的一般流程是,先結合常見的幾種異常原因(業務動作、市場環境等)提出初步假設。然後是将指标按照支持的維度進行逐層拆解分析。
例如昨日大盤單量環比下降40%,先分平台看,Android、ios、微信小程序各段環比是否有明顯的差異,即是各端均差不多幅度下降,還是某一端明顯下降。
分業務類型看,環比下降幅度Top的業務分别是團購、麗人、到店,單量下降對大盤整體的影響分别是10%,8%,5%等。最後确定指标拆解過程定位關鍵影響維度驗證假設,得出分析結論。
這個分析流程的核心思想是基于某一标準(指标)分析哪個維度、以及哪一維度枚舉值對總體的影響最大,這和經濟學中用基尼系數(英文:Giniindex、GiniCoefficient)比較相似,基尼系數來作為衡量一個國家或地區居民收入差距的常用指标。
基尼系數取值區間為[0,1]。越接近0表明收入分配越是趨向平等,一般認為小于0.2時,居民收入過于平均,0.2-0.3之間時較為平均,0.3-0.4之間時比較合理,0.4-0.5時差距過大,大于0.5時差距懸殊。
因此,可以先通過計算各個維度下,每個維度枚舉值波動情況對大盤的影響,得到單一維度下,各個值的基尼系數(基尼系數的算法公式參考百度百科),得到哪些維度波動“不公平”,即差異比較大,由此可得影響總體波動的關鍵維度排名,然後再針對具體維度下的各個枚舉值,計算波動影響Top的值。
例如昨日訂單環比下降10%,降低數值為A,通過基尼系數得到城市維度下,基尼系數最高,0.7,可以确定城市維度存在明顯差異,每個城市環比下降值從高到低依次為,B1,B2……Bn,由此可自動生産歸因報告,即到訂單下降主要受到地區影響,分城市看大盤貢獻度Top3的城市為:上海B1/A,北京B2/A,南京B3/A。
歸因分析報告生成頁面設計可參考下圖示例:
數據部門經常遇到的痛點是很難第一時間獲得業務的信息,比如産品改版、活動上線等,往往是先看到數據波動,再去溝通确認業務動作。
因此,可以考慮基于數據填報的能力,當業務調整、或者外部經濟、政治、競争環境信息時,可以及時更新備注,作為日期維度表的補充,在産品端進行展示提醒。
指标波動是數據工作中最常見的問題,高效的異常波動的歸因分析流程主要從以下幾個方面逐步完善:
數據幹飯人,微信号公衆号:數據幹飯人,人人都是産品經理專欄作家。專注數據中台産品領域,覆蓋開發套件,數據資産與數據治理,BI與數據可視化,精準營銷平台等數據産品。擅長大數據解決方案規劃與産品方案設計。
本文原創發布于人人都是産品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!