數據治理的難點和困難-tft每日頭條



tft每日頭條

> 科技

> 數據治理的難點和困難

數據治理的難點和困難

科技更新时间:2026-07-23 04:41:35

如果你常常對數據準确性而煩惱，大部分時間都用于處理數據而不是對業務進行思考分析的話，那麼你需要好好對數據進行治理了。

一、為什麼要進行數據治理
不知道你是否有這樣的感受，看到數據後，一臉懵逼，不知道各個表和字段代表什麼意思，再看看别的同事寫的SQL，一條SQL語句有幾百行，各種表關聯，然後問了其中一個同事，他說“别提了，數據都不準，我快被數據折磨死了！”，此時你是不是“想死”！欲哭無淚……

究其背後的原因，是因為負責的人隻是問題使然，哪有問題哪裡去補，沒有整體的統籌規劃，一步錯，步步錯，數據最後是越來越重，查詢越來越複雜，數據準确性還沒有人敢打保票，同時修複的難度也大大增加。
二、如何進行數據治理
如果要想将數據治理好的話，需要遵循以下六大原則、合理制定數據中間表模型以及埋點采集到應用全流程的把控。
1. 六大原則

原則1：關鍵概念多方共識

關鍵概念若涉及多方，比如成交客戶的定義，要确保公司内部和客戶相關的所有業務人員理解一緻。

你或許會說，成交客戶還不好理解麼，就是購買了我公司産品且簽署合同的用戶就是一個成交客戶，但是實際情況遠非如此，筆者當時處理該塊的業務時，問不同的業務人員得到的結果都不一樣，這樣就造成了數據指标統計的歧義甚至數據的不準确。
當一個合同主體變換名稱（含工商注冊名稱變更、更換簽約公司等），那麼這個客戶算一個成交客戶嗎？
同一個集團/公司下，不同的子公司/業務線/部門用同一個名字簽署多個不同合同，屬于單個成交客戶還是多個成交客戶？
當合同還在「待确認」或未拿到合同編号時，如果客戶運營人員已經開始服務客戶，那麼這個客戶算一個成交客戶嗎？……

原則2：某個類型的值經常發生變動，則需要冗餘一個通用字段冗餘值

筆者是深受其害，以前每個月底都需要找開發、業務人員對一遍數據，舉個例子：

查詢原始指标：soure_type為A，B的任務産出的金币數額為消費指标，SQL已針對該指标做了類型篩選。某一天業務運營人員上線新的任務，C類型的任務會貢獻金币流水，但是開發未告知數據人員，導緻原來的關鍵指标數值出現差錯。

處理過數據的同學都知道，某個指标的實現可能和其它幾個關鍵指标相關，那麼該指标的異常排查就需要逐個檢查是哪個相關指标出問題了，查找到原因可能2，3天的時間就沒了，但如果事先開發人員冗餘了一個通用字段代表該類消費指标，那麼後續不管業務人員上線多少個消費類型的任務，都不會對原來的指标産生影響。

原則3：每個實體都有唯一、不變的ID，最好沒有實際意義

一是為了實體的唯一性，二是為了表關聯或更新時不受業務的影響。

原則4：涉及協作的數據，發現問題要從修改源頭做起，保證下一次拿到正确的數據

協作的數據可以說是一個串聯的過程，源頭的數據會逐層影響下層的數據，不要為了一時方便，隻修改目前發現問題的地方，要從修改源頭做起，方便他人即方便自己。

原則5：編寫操作清單，操作前請三思

數據間存在關聯，把數據間的關聯關系陳列清楚、注意事項标注清楚，操作前一一核對，小數據量驗證無錯後，大數據量執行。

原則6：系統工程的方法管理數據，盡可能使用系統，監控數據錯誤并及時修複。

将使用數據的相關方都畫在一張系統循環圖中，觀察數據錯誤産生于系統哪個環節，如何影響後續各個環節，避免惡性循環的産生。
2. 合理制定數據中間表模型

一款産品的存在是為了解決某類用戶群體的需求痛點，并在此基礎上進行盈利；數據分析的存在也是為了輔助挖掘和發現潛在用戶需求并進行優化和運營。

而數據的準确性和數據查取的效率依賴于底層的數據采集和中間層的數據中間表的構建。

關于底層的數據采集方法詳見：産品經理給開發提埋點需求的正确姿勢

用戶的需求隐藏在用戶行為中，從聚合用戶行為的角度構建數據中間表方便數據查詢和分析。

用戶行為分析模型

以用戶觀看短視頻這個用戶行為來說

WHO：即觀看視頻的人是誰，可以唯一标識用戶身份，如設備ID，注冊後的用戶ID。如果和第三方合作的話，可以對一個用戶生成一個唯一标識ID，用戶串聯設備ID和注冊後的用戶ID。
WHEN：觀看視頻發生的實際時間，一般會記錄客戶端時間和服務端時間。
WHAT：即用戶觀看視頻這個行為。
HOW：記錄用戶觀看視頻的方式，如所在頻道、觀看時長、視頻類型等等
WHERE：記錄用戶在哪個省份、城市、IP下觀看視頻的，同時還會記錄網絡類型、應用版本、操作系統等其它環境信息。

構建包含完整用戶行為的數據中間表

構建好的業務指标體系的高效計算和快速有條理展現依賴于數據倉庫中間表的建設，若中間表設計不合理，就會導緻滿足基本業務分析需求時一步不能計算出來且邏輯關聯多導緻實時計算等待時間過長，這樣就增加了數據分析的等待成本以及業務人員查詢的成本。

所以一張數據中間表應該包含用戶完整的行為信息和動态屬性信息，而要描述用戶的完整行為就需要按照用戶行為模型記錄上述信息，但實際情況是，我們所記錄的表數據是分割的。

比如，觀看視頻這個表一般隻會記錄和視頻相關的信息，用戶的How、WHERE信息會分部在其它表中，這樣就增加了表關聯的複雜度，邏輯複雜不利于分析，所以我們需要構建一個用戶行為中間表，裡面包含了上述5個方面的詳細信息。

同時通過事件名稱冗餘某一類的埋點行為數據，如可将金融相關的埋點，作為值傳給事件名稱，這樣查和金融相關的埋點數據時隻查這一張中間表即可。

除了用戶行為類的中間表外，還有一張存儲用戶基本信息的，因為除了和用戶行為相關的動态信息外，還有專屬于該用戶的靜态信息，如年齡、性别、注冊時間、注冊地等。
3. 埋點采集到應用全流程框架

數據中間表的數據底層來源于基礎埋點數據，基礎埋點數據的準确性是基礎中的基礎，而埋點數據的采集往往會涉及産品方、數據方、業務方、技術方，四方配合不好的話，就會影響數據的準确性，到需要用數據時發現數據采集錯誤，隻能等待下次發版修改，效率低下，延誤時機。

故需要梳理一套埋點流程規範，以提高整個配合過程的效率、數據準确性、業務支持的及時性。

若有數據産品角色，第二部分主要由數據産品負責，數據分析師要密切配合數據産品，因為最終需要分析數據的是數據分析師。

三、數據治理後的數據狀态是怎樣的？
我想，數據治理好後，起碼可以省50%的數據修改反複的時間，将更多的精力用在業務分析上，同時數據是準确的，可以正确引導業務決策。

另外降低了SQL複雜度，産品運營等業務人員可以通過簡單的SQL查詢所要看到的指标。常用指标有：次數、人數、人均次數、總金額等數值指标，再結合數據中間表中構建的各種維度，就能實現多維交叉分析。

最後舉個SQL實現例子：

select ymd,cc,count(*) ,count(distinct uid) from table_name where ymd between ‘20190701’ and ‘20190712’ and event_type=’clicktask’ group by ymd,cc order by ymd desc;

作者：北極星，神策數據分析師，知乎專欄：數據分析方法與實踐，緻力于通過數據分析實現産品優化和精細化運營。

本文由 @北極星原創發布于人人都是産品經理。未經許可，禁止轉載

題圖來自 Unsplash ，基于 CC0 協議
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

上一页下一页

 碼頭防疫消殺

 小白學看電腦配置速成

相关科技资讯推荐

寶馬X3汽車燈光怎麼使用
1、汽車的燈光控制杆位于方向盤左側以及中控台左側的位置。2、燈光杆向上、向下推為車輛的轉向燈的使用。3、燈光杆向前、向後推為車輛的遠光燈的使用。4、下圖檔位為示寬燈的檔位。5、中間的檔位為自動燈光功能。6、旋鈕調節到下圖檔位為打開車輛的近光燈。7、另外還可以調節車輛的霧燈功能。 2023-07-03
電腦顯示電源已接通未充電是怎麼回事
2023-07-03
蘋果備忘錄如何置頂
2023-07-03
蔬菜育苗怎麼預防閃苗
1、掌握好放風放風。在苗期于2-3天持續陰雨天時，如果天氣突然放晴，這時應該避免開大風口進行通風，以免造成棚内苗床溫度劇烈變化。建議先開小風口通風、逐步慢升溫的方式，等到幼苗慢慢适應後，再逐步加快通風量，另外在通風時如果外部風力較大、溫度過低時，建議選擇順風處進行開小口通風，避免開底風口通風，以防過... 2023-07-03
光貓電源燈不亮了怎麼回事
2023-07-03

热门科技资讯推荐

科技移動電源如何正确的使用
1、注意充電電壓、電流。移動電源一般都有過充、過放等保護，在使用的時候要注意不要等用光了電量再充電合影會縮短電芯的使用壽命。同時要移動電源輸入和輸出參數，要注意輸入/出電壓、電流的大小，在充電的時候要按照标稱的參數來進行充電，避免使用大于輸入電壓給移動電源充電，這樣會對内部元器件和電芯造成不同程度的... 2023-07-03
科技 ps對齊工具怎麼調出來
2023-07-03
科技計算機網絡的主要目的
2023-07-03
科技聯想電腦驅動安裝失敗怎麼辦
1、驅動安裝失敗，建議到聯想官網下載對應的驅動程序重新安裝嘗試。2、可能是系統未正确安裝導緻的，建議重新安裝或者拿到售後與電腦維修店讓專業的人安裝。3、可能硬件出現問題，多次嘗試安裝系統仍然無法安裝驅動等等，建議到聯想售後讓專業的人檢測故障所在并解決問題。 2023-07-03
科技 saas系統是什麼
2023-07-03
科技暖氣流量閥怎麼調大小
2023-07-03
科技怎麼查營業執照信息
演示機型：華為MateBookX系統版本：win1020H2APP版本：百度浏覽器12.11.0.101、打開浏覽器進行搜索，搜索框内輸入“國家企業信用信息公示系統”并搜索，文字鍊接第一條進入官網。2、進入官網後，在輸入框内輸入企業名稱、統一社會信用代碼或注冊号，回車或點擊查詢。3、在查詢到的信息下點公司名，即可查看營業執照信息，營業執照信息包含了所有内容供查看。4、營業執照信息下面就是股東及出資 2023-07-03
科技 airpods雙擊沒反應
2023-07-03
科技蘋果12可以裝4g卡嗎
2023-07-03
科技 IOS14的safari誤删了怎麼辦
演示機型：Iphone12系統版本：iOS14APP版本：Safariv13.01、打開蘋果手機後，從最後一屏向左側滑動。2、點擊工具的圖标進入。3、長按Safari浏覽器的圖标。4、點擊添加到主屏幕的選項。5、點擊後，即可将safari圖标恢複。蘋果手機使用小技巧：1、計算器妙用：iPhone手機裡的計算機，平時都是用來進行一些簡單的加減乘除。隻要将計算機橫向過來，就能開啟科學計算器，一些方程式 2023-07-03

网友关注

科技電容怎麼分正負極
2023-07-03
科技國行官換機是什麼意思
2023-07-03
科技 airpods續航時間
2023-07-03
科技 et200m是什麼模塊
2023-07-03
科技學信網可以重新注冊嗎
2023-07-03
科技 wdzb-byj是什麼電線
2023-07-03
科技華為art-aloox是什麼型号
2023-07-03
科技 5G網絡有什麼特點
1、高速度：網絡速度提升，用戶體驗與感受才會有較大提高，網絡才能面對VR／超高清業務時不受限制，對網絡速度要求很高的業務才能被廣泛推廣和使用，意味着用戶可以每秒鐘下載一部高清電影，也可能支持VR視頻。2、泛在網：随着業務的發展，網絡業務需要無所不包，廣泛存在。隻有這樣才能支持更加豐富的業務，才能在複... 2023-07-03
科技螞蟻集團和阿裡巴巴集團什麼關系
2023-07-03
科技 WIFI密碼忘記了怎麼在手機上找回
2023-07-03
科技淘寶雙12有活動嗎
2023-07-03
科技 140瓦一小時幾度電
2023-07-03
科技電腦鍵盤删除鍵是哪一個
2023-07-03
科技榮耀v9聲音低怎樣解決
1、可能将聲音設置得比較小，可以按音量上鍵，将聲音調節大一些。2、檢查手機喇叭口是否被遮擋，将遮擋物移開，非官方标配的保護殼也可能導緻喇叭口被堵住。3、如果連接上了藍牙設備，聲音從藍牙設備發出，建議關掉藍牙開關後查看。4、更換音源觀察（可使用系統鈴聲測試）。5、第三方應用（如微信等）将音頻系統設置為通話狀态，如果未恢複，會導緻音頻通道混亂，音樂從聽筒發出，揚聲器沒有聲音。建議重啟手機恢複。 2023-07-03
科技直流焊機正接和反接有什麼區别
2023-07-03
科技情侶黃鑽一個人能開嗎
2023-07-03
科技 win10bios怎麼進入
2023-07-03
科技刷梅林固件是什麼意思
演示機型：華為MateBookX&&TPLINK-TL-WR886N系統版本：win10以路由器為例，刷梅林固件是路由器的一種運行固件，路由器支持就是說可以刷新梅林固件，刷以後就可以不使用原廠的官方固件來使用路由器的，主要是梅林固件的設置和使用比較方便，功能也多一些。刷梅林固件能夠釋放路由器的很多功能，比如安裝遊戲加速器，增強網線寬帶，調整發射功率之類等等，将原本路由器單一的功能變得更豐富。梅林路 2023-07-03
科技專賣店和專營店區别
2023-07-03
科技斑鸠怎麼養殖才好
1、斑鸠選種鳥。斑鸠選種是很重要的一隻，一般人選種都是按大小來的，同樣的年齡越大的越受大家的喜愛，年齡在半年左右的為佳。其實一些體型相對較小，看起來很靈動，羽毛有點亂的，喜歡飛撲的雛斑鸠才是大家當種鳥的首選，這樣的斑鸠野性和活力高，後期繁衍的下一代生存率會高很多，其次這樣的病菌抗體也會高很多。2、斑... 2023-07-03
科技烏龍頭怎麼種植
1、通常情況下，每年春天的時候我們就要開始進行種植了，一般是5月份左右。因為這個時候氣溫比較适宜，不高也不低，這種氣溫很适合烏龍頭這種農作物的生長。當我們在這個時間種下了烏龍頭，到了7月份的時候它們就會開花，再過上三個月就會結果了，最後上市的時間就會在10月份左右。這個時間可是有講究的，因為一般來說... 2023-07-03
科技上網費是什麼
2023-07-03
科技 syv-75-5是什麼線
2023-07-03
科技攜号轉網能改變歸屬地嗎
2023-07-03
科技電視平面屏碎了怎麼辦
1、看電視的價格及是多少寸的，價格高的話建議是換屏幕，一般也不會太貴的，可以去家電維修的地方修下。2、看破碎程度，小的話拿膠帶粘下是不是就可以了呢，具體情況具體分析吧，太小的破碎沒啥事。3、根據壞的地方，如果正在電視屏幕的中央壞了的話，确實不好處理，因為這樣不換的話，影響視覺效果。4、看破碎的程度和... 2023-07-03
科技什麼是網絡互連設備
2023-07-03
科技華為新系統emui11新功能
2023-07-03
科技華為mate30epro是什麼
2023-07-03
科技電視機啟動不了怎麼辦
2023-07-03
科技電腦顯示器桌面顯示不全怎麼辦
1、當屏幕顯示不全時，有可能是分辨率的問題。在桌面空白處右鍵單擊，選擇屏幕分辨率選項。2、進入屏幕分辨率中，可以看到現在所顯示的分辨率大小。3、将分辨率下方的下菜單打開，将分辨率調整到最大。4、然後點擊應用，确定。5、保留修改數據，點擊确定按鈕。6、返回桌面中，可以看到四周的黑邊已經消失，現在是全屏... 2023-07-03

關于

條款和條件隱私政策 Cookie 設置

服務

登陸注冊聯系我們

tft每日頭條美食生活職場母嬰時尚科技汽車

友情鏈接

Copyright 2023-2026 - www.tftnews.com All Rights Reserved