編輯導語:互聯網時代,數據分析的重要性不言而喻,數據分析也貫穿着整個工作的過程,本篇文章作者分享了數據分析的對數日常以及給出了很多可行的方法,希望對你有幫助。
一、數據比對的痛
“這數不對”。
“為什麼A這裡的數據和B的數據不一緻?”
“為什麼平時這個數是C今天變成了D?”
“為什麼這麼高?”亦或是“為什麼這麼低?”
——【我的對數日常】
一旦有人對某數據提出質疑,就會開始令所有人崩潰的對數。
尤其是經營分析會、月度會議期間,數據團隊面臨反複且高頻的折磨,不同需求方不同角度都等着回答和解釋。
- 領導:不理解,為什麼沒有人能給出來正确的數據?
- 業務:技術給的結果不準…數據質量差,又不能用,又要自己算,數據量太大算不動。
- 數據團隊:數據不是我錄的、業務數據庫不是我設計的、指标邏輯也不是我定義的、運營邏輯和策略調整對數據的影響我也不知道。數據根據邏輯加工出來就是這個樣子,不是你想要的,我該解釋什麼?
非常無辜,非常無語,活還是要幹!
不考慮模型設計、不講數據治理、制度和流程梳、不談組織合理性、不談數據意識和數據團隊地位,不與業務battle。
落在當下,必須要面對的工作面前,隻是想聊一聊“對數到底應該怎麼對?”
希望通過這篇文章與數據相關從業的朋友聊一聊“面對常态化數據質疑的處理方式,在不同的場景下數據團隊的觀點輸出”。
二、對數對數,對的是什麼1. 數據比對的場景
- 新舊指标對比,新指标上線替換就應用;
- 全新指标上線,證實數據準确;
- 同預期不符或數據波動大,進行數據查驗;
- 應用端數據不一緻,維度彙總不一緻給出解釋;
- 數據A和相關數據B不匹配,交叉驗證。
2. 數據團隊的心态
數據技術有門檻,但數據是公司的數據、是業務的數據。
數據本身沒有價值,數據脫離業務應用,就隻是磁盤上的文件而已。
對數占用了數據團隊大量的時間和精力,消耗耐心和鬥志,這種情況下應秉持怎樣的心态?
下面是數據團隊避無可避的問題:
1)提升團隊數據素養
- 對數屬于不複雜但大多數人做不好事情,好的數據團隊人人都是數據分析師,具有數據思維,懂業務。
- 清楚業務規則,懂業務數據流向。清楚數據映射的業務流程,識别數據問題的業務構成。
- 遇到問題知道從什麼地方分析原因,知道要看什麼數據。
2)提升公司數據意識和數據産品的可信度
- 數據有天然門檻和屏障,如何拉齊各方的認知?
- 如何方便用戶去使用數據?當不缺數據的時候,如何有效使用數據?如何給用戶呈現數據?
- 産品思維,數據是結果但對數據的理解是主觀的。
- 如何直觀、不引導的客觀呈現數據?
3)解放人力實現自動化
- 化被動為主動,怎樣從無盡的對數中抽離。
- 能提前識别異常、提示變動、給出對照。
- 數據穩定,線下數據走通後,便可以逐步切線上,固化比對邏輯。
3. 對數對數,對的是什麼
對數就是實際和預期的彌合,為什麼A不是B?
A是數據部門輸出的數據,B可能是之前某版本的數據、可能是心理預期、可能是某業務線的手工數據、可能是去年同期數據、可能是上個月的數據。
解決方案有幾種:證實“A是對的”;證否“B是錯的”。
證實”A/B都是對的,但有cdef造成了兩者的數據差異”。
都要給出結論、對照和明細憑據。
三、通用可複制的方法數據比對是有目的的數據分析。
著名的咨詢公司Gartner于2013年總結、歸納、提煉出一套數據分析的框架,Gartner把數據分析分為四個層次,分别是:
- 描述性分析(Descriptive Analysis)——發生了什麼?
- 診斷性分析(Diagnostic Analysis) ——為什麼會發生?
- 預測性分析(Predictive Analysis) ——什麼可能會發生?
- 處方性分析(Prescriptive Analysis) ——該做些什麼?
數據比對是描述性分析,即對數據現狀拆解出數據依據。
那麼數據比對的過程,就是描述性數據分析的過程,可按以下順序進行:
- 确認分析的目的和思路;
- 數據準備、處理及分析;
- 撰寫數據結論及報告。
下面具體說如何操作,讓觀點可執行。
1. 确認分析的目的和思路
1)假設驗證确認分析思路
(1)明确對照項[A-B]
确定問題,明确目标,得出A、B哪個正确?差異原因。
首先明确對照項A、B的定義,判斷其定義、口徑、算法是否一緻?
(2)對照指标數據流向及構成
對照數據流向,分析數據構成及計算過程。
确認比對項,時間、口徑、統計粒度,度量和維度做篩選還是過濾。
(3)收集數據進行證僞推斷,得出結論
準備基礎明細數據,導入excel,通過vlookup、透視表等關聯分析,關系走通,記錄過程數據,提供結果數據。
Example:統計結果比對(數值1vs數據2,差異值)、12明細、差異明細比較。
Tips:明确分析目的和方案前,别急着到處要數,可能費力要了又用不上。
2. 數據一緻性驗證方式
1)基礎認識一緻性驗證
- 指标的設計過程:定義、計算公式、統計維度(時間)、維度含義、屬性定義。
- 指标的技術屬性:技術方式、數據源、更新時間。
Example 1:實時、離線指标不一緻屬于正常情況,可直接解釋原因:
- 更新時間天然不同,離線為批處理定時調度任務模式,而實時對數據的時序性有要求,在某些場景并不能保證與離線同等的一緻性;
- 計算邏輯無法對齊,離線邏輯相對複雜,支持補償邏輯,實時處理卻相對比較簡單;
- 數據源不一緻,比如日志在一些場景不能做到完全一緻。
Example 2:回款率單位為%,城市結果值求平均并不等于全國數值,也可直接告知業務原因。
2)正向驗證
- 确認是否是業務正常變動,如大促暴漲、廣告行業的1&2月淡季周期性異常。
- 交叉維度彙總不一緻,數據缺失向上彙總記錄的處理方式。
3)反向驗證
- 任務是否正常?數據是否更新?集群崩潰、任務失敗、任務超時、源數據系統字段變更;
- 處理過程是否正常?數據漂移、數據發散、數據傾斜;
- 業務口徑數據和數據庫數據映射是否一緻?不同含義指标取相同名字。
2. 數據準備、處理及分析
1)數據準備
在分析思路确定的基礎上,準備收集準備數據,可能是:系統導出、數據提取。
2)數據處理(清洗、轉化、提取、計算)
基礎數據準備完畢,按既定的思路計算、比對,加工需要的可用于分析的數據。
3)數據分析(數據統計、數據挖掘、數據呈現)
比對後發現并分析差異,用适當的分析方法及工具(極大多數場景Excel足夠),對處理過的數據進行分析,提取有價值的信息,形成有效結論。
3. 數據結論及報告
1)明确結論
- 哪個數據是準确的?是什麼造成了數據差異,數據差異的構成和占比差異是否合理?
- 是否需要進行修正,計劃、難點分别是什麼。
2)結果呈現
數據比對的報告不需要精緻,能夠做到邏輯清晰,圖表搭配,層次分明。
讓閱讀者一目了然理解差異和差異構成就可以進行結果數值比對、差異明細、對照過程及明細。
呈現餅圖和柱形圖足夠了,柱形圖看差異,餅圖看差異構成。
四、 數據人的下一步應對被動的數據比對之後,如何化被動為主動,進行常态化的數據監控,不再耗心費力疲于應對,提升數據健康度,對數據異動監控提示,實現數據可用可查有提示可預警。
唯一且艱難的道路:有數據質量标準是基礎,在制定數據質量計劃的标準上,進行周期性的數據質量盤點和數據治理!
這條道路需要數據團隊有決心、信心,有足夠的耐心和體力,去細緻打磨适合企業的數據标準。
需要對每個數據域、數據實體、數據項,甚至到字段、屬性,定義數據标準,核實數據質量。
1. 數據質量
(GB/T 36344-2018 數據質量評價标準)
Example:
- 完整性:指數據元素和數據記錄完成性,例如:字段是否存在空值,指标數據維度是否足夠支撐業務分析。
- 準确性:指數據可信度,例如:是否數據正确、格式合規、唯一性、無髒數據。
- 一緻性:指相同數據一緻性和關聯數據一緻性,如:相同指标在不同場景下數值是否一緻。
- 時效性:指基于時間段的正确性、基于時間點及時性、時序性,例如:實時能否保證1分鐘以内延時,離線能否保證每天9點定時更新。
(GB/T 36344-2018 數據質量評價标準-數據質量評價過程)
2. 數據清洗
在建立數據規範的基礎上,就可以進行數據質量提升的行動,也就是“數據清洗”。
數據清洗,就是從數據庫表中更正和删除不準确的數據。
1)數據清洗
- 識别數據問題;
- 評估問題及解決方案;
- 清洗計劃:更正、删除、合并、替換、補齊;
- 數據應用及周期性質量評估清。
2)數據清洗實踐要點
- 數據問題是業務數據問題,需要多方人員參與,全面的考慮上下遊聯動影響,包括産生數據的、使用數據的。
- 提升源端質量是根本之法,增加系統界面端和數據庫輸入的的限制,如某些字段非空校驗、數據類型校驗、唯一約束等。
- 做好備份!做好備份!做好備份!
3. 監控預警
監控預警是化被動為主動的方法,可根據數據質量規則制定監控策略。
通過數據質量監控工具來提示數據異常或數據波動,來确保對業務數據穩定的掌控感和保證數據的準确性,問題處理的及時性。
質量規則不再多說,可以聊一聊波動性,什麼樣的指标波動可以看作是“異常”呢?
指标波動不可怕,數據波動是業務發生的正常情況,業務産生自然會發生數據變化。
比如每周的銷售額肯定不一樣,脫離業務場景沒法談數據波動。
但像之前都1000w,這周隻有200w,是不是就屬于異常狀态?
監控可以根據公司業務情況和數據情況來綜合評定,通過絕對值預警、相對值預警兩方面來設定。
具體的方法有:絕對值、同比環比、周期平滑、假設檢驗(3σ原則)、時間序列、算法模型。
4. 提前準備
在新需求的設計過程中,就提前準備數據比對的工作。
評估不同線上線下、離線實時的差異,找出可能産生問題的原因并解決,技術架構方案選擇,或預評估差異。
5. 一些提醒
1)再次強調:業務、業務、業務
數據必須和業務結合才有意義,熟悉業務才能看到數據背後隐藏的信息。
缺乏對行業、公司業務認知,數據應用和數據分析結果都會出現偏離,變成自嗨或者空中樓閣。
要懂上下遊數據,也要弄清楚公司所在行業結構,對行業的上遊和下遊的經營情況有大緻的了解。
2)數據敏感度
數據本身是客觀的,但被解讀出來的數據是主觀的。
同樣的數據由不同的人分析很可能得出完全相反的結論,所以一定不能提前帶着觀點去分析。
Example:比如指标預警沒有合适方法,可暫定波動值超過5%預警。
如果一個變量符合正态分布,則其95%的值會落到均值左右二個方差内。
3)叠代化思維
業務是不斷調整和發展的,依托的系統和數據也是不斷叠代變化,相應指标也需要随着業務不斷調整,更加精确的度量業務。
4)精細度控制好,不要追求極細
細分是深入的分析的基礎,但不要追求極細,細分意味着複雜,要判斷公司團隊數據意識和業務精細化管理是否到了匹配的階段。
本文由 @申墨揚 原創發布于人人都是産品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CCO協議。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!