tft每日頭條

 > 科技

 > 數據有效性分析方案

數據有效性分析方案

科技 更新时间:2025-01-11 22:36:32
數據質量管理最行之有效的方法就是找出發生數據質量問題的根本原因,然後采取相應的策略進行解決。首先需要确定根本原因:找到引起數據質量問題的相關因素,并區分它們的優先次序,形成解決這些問題的具體改進建議。然後,制定和實施改進方案:确定關于行動的具體建議和措施,基于這些建議制定并改進方案,預防未來數據質量問題的發生。— 01 —什麼是根因分析?

每個問題的發生都必有其根本原因,數據質量管理的核心是找到發生質量問題的根本原因,并對其采取改進措施。

1、根因分析的概念

所謂根因分析,就是分析導緻數據質量問題的最基本原因。引起數據質量問題的原因通常有很多,比如環境條件、人為因素、系統行為、流程因素等,因此要通過科學分析,找到問題發生的根源性原因。根因分析是一個系統化的問題處理過程,包括确定和分析問題原因,找出适當的問題解決方案,并制定問題預防措施。

問題:發生了哪些數據質量問題?

原因:為什麼發生這些問題?是人的因素,技術上的原因,還是流程不合理?

措施:采取什麼解決方案能夠防止問題再次發生?

2、為什麼需要根因分析

通常,企業中的每個人都認為擁有良好的數據質量對業務有利,在這一點上非常容易達成共識。尤其是在當前的數字化時代,企業對數據質量的關注超過以往任何時期。

但是,當涉及誰應該對數據質量負責,誰必須對此做些什麼,以及誰應該為必要的數據質量管理活動埋單時,事情就會變得複雜而艱難。我們經常看到的是各部門相互推诿和指責。

技術部門經常說:“數據的定義和生産都在業務部門,所以業務部門應該對數據質量負責!”

業務部門說:“我們輸入的數據都是正确的,是你們在數據傳輸、加工處理過程中搞錯了!”

在很多情況下,企業會把數據質量問題的責任推給技術部門,技術部門成了數據質量問題的“背鍋俠”。他們盡管有滿腔的怨氣和不滿,但也不得不先去查找和處理問題。如果不明确數據問題的根因,這樣的矛盾、指責、推诿将永無休止!

企業的數據質量問題通常隻是一個現象,人們往往隻看到了數據不準确、不一緻、不完整,卻沒有細緻地剖析這些問題發生的原因。隻顧解決表面問題,而不管發生問題的根本原因,這是當前企業在數據問題處理中的普遍現象。企業試圖通過技術手段來解決數據質量問題,例如清理髒數據,建立對照關系表,甚至采用AI算法對不完整的數據進行插補。筆者并不反對用技術手段解決數據質量問題,相反,筆者是非常支持通過技術改善數據質量的。

但是,這裡要特别強調,在通過技術手段處理數據質量問題之前,我們應當先進行數據質量問題的根因分析,這有助于我們找到更合适的解決方案,達到事半功倍的效果。不能隻看到問題的現象就采取措施,這種急功近利的問題解決辦法“治标不治本”,數據治理問題免不了要複發,其結果是組織不得不一而再、再而三地重複應對同一類問題。可以想象,這樣的問題處理成本肯定是驚人的。

“撥開迷霧見明月”,分析任何問題都應該找到問題的本質。進行數據質量問題的根因分析,不僅在于解決業務部門和技術部門的矛盾,更重要的是能夠幫助企業利益相關者發現數據質量問題的症結所在,從而找到适當的解決方案。

— 02 —産生數據問題的階段

數據和人一樣,也是有生命周期的。從出生到死亡,人在一生中可能會得各種各樣的疾病,這些疾病或大或小,或輕或重,要是頭痛腦熱,挺一挺也就過去了,要是重疾,就得治療了。

數據也一樣,數據的“一生”要經曆數據規劃設計(定義)、數據創建、數據使用、數據老化、數據消亡五個階段,每個階段都有可能發生數據質量問題。企業數據質量管理應關注數據生命周期的每個階段。

1、規劃設計階段

在規劃設計階段,數據的定義或設計不當會産生數據質量問題。比如:在數據建模時沒有對數據對象進行清晰的定義,存在二義性,導緻水果蛋糕和水果味蛋糕分不清。再比如:在建立數據庫時,可能會發現某些數據項含糊不清,從而導緻不确定是否能夠輸入數據、如何輸入數據以及在何處輸入數據。

例如:程序員小K為某程序創建了一個手機号碼表并對其設置了手機号碼的約束條件——11位數字,而這個程序是跨境使用的,這個約束将直接導緻部分數據填寫錯誤,因為國外的手機号碼不一定是11位。

2、數據創建階段

在數據創建階段,數據的錄入不當會産生數據質量問題。數據是否正确進入系統?盡管如今企業的信息系統中有很多功能已經實現了自動化,但是仍然無法避免将錯誤或不合格的數據輸入系統。數據不準确的問題常常是因為輸入數據的人犯了一個不經意的錯誤,例如數據拼寫錯誤,丢失數據記錄,從列表中選擇了錯誤的條目,在輸入框中輸入值時張冠李戴(比如在“客戶名稱”輸入框中錄入了客戶的聯系信息)。

3、數據使用階段

在數據使用階段,要關注是否正确使用和解釋了數據。如果企業需要跨多個系統輸入相同的數據,例如某“客戶檔案”數據要在ERP系統、CRM系統等多個系統中重複錄入,則很可能會發生人為錯誤。重新輸入數據是一項漫長而艱巨的任務,很容易導緻數據産生多個版本(數據不一緻),在沒有任何形式的數據驗證時更是如此。這種情況下,進行必要的數據集成是很有效果的。

然而,在将數據遷移到新系統或整合系統數據時,也會給企業帶來數據質量風險。在數據的集成和傳輸過程中,數據的值可能不規則、丢失或放錯位置,甚至通過簡單的電子表格導出/導入也可能會發生不一緻問題。

4、數據老化階段

數據不是靜止的,它可能随時發生變化。你現在的手機号碼或職務是否仍然與兩年前的相同?你的信息會發生變化,你的客戶也一樣。企業應該注意保持數據是最新的,否則數據會“過期失效”,這将會對你的業務産生很大影響。

5、數據消亡階段

在數據消亡階段,對使用完的數據進行歸檔及銷毀操作。通常來說,數據歸檔和數據銷毀可以再分為兩個階段,前一個階段關注數據被正确歸檔,後一個階段關注數據被安全銷毀。這與數據質量、數據安全及個人隐私保護都有關系。

— 03 —産生數據問題的原因

數據研究機構Experian Data Quality的一項研究發現,在數據不準确的主要原因中,59%是人為因素,其中31%是部門之間缺乏溝通,24%是數據管理策略不充分。

這項研究中的數據告訴我們,數據質量問題的主要原因集中在企業經營管理、業務應用和技術操作3個層面,如圖所示。

數據有效性分析方案(數據質量管理之根因分析)1

圖:産生數據質量問題的3個層面

1、經營管理層面

(1)企業的發展和并購

随着企業規模的不斷擴大,很多企業選擇通過并購快速布局新市場或新業态,以實現多元化業态的創新升級。企業在并購的過程中需要将兩家公司的數據以某種方式合并,兩家公司可能使用完全不同的數據系統,系統的數據标準不統一,因而會産生各種摩擦和問題。

(2)缺乏有效管理策略

很多企業的信息化現狀都是先建設後治理。

早期缺乏整體的數據規劃,沒有統一的數據标準和明确的數據質量目标,導緻不同的業務部門在處理業務時,容易出現數據沖突或矛盾。

缺乏有效的數據認責機制,沒有明确數據歸口管理部門和崗位職責,導緻出現數據質量問題時找不到負責人,各業務部門之間相互推诿。

缺乏有效的數據管理制度和流程,數據質量問題從發現、指派、處理到優化沒有統一的流程和制度,導緻數據質量問題的解決沒有流程上的保障。對于曆史數據質量檢查、新增數據質量校驗沒有明确有效的控制措施,導緻數據質量問題無法考核。

(3)缺乏統一數據标準

數據質量管理中的一大挑戰是使各個部門達成一緻。如果缺乏統一的數據标準,對于同一數據理解不一緻,業務之間的協作和溝通就如同“雞同鴨講”。數據标準是企業數據管理的第一道防線,然而遺憾的是,很多企業對數據标準的重視程度不足,它們對數據的“重視”還停留在口頭上,沒有實際行動。

2、業務應用層面

(1)數據需求模糊不清

數據需求不清晰,對于數據的定義、業務規則描述不清晰,導緻建模人員無法構建出合理、正确的數據模型。我們經常見到在需求階段業務人員對需求的描述不清楚,等到數據應用開發完後,他們卻發現結果不是自己想要的,于是就開始了永不休止的需求變更,最終技術人員和業務人員相互不滿意。

需求描述不清、頻繁的需求變更對數據質量的影響非常大,需求一變,數據模型設計、數據錄入、數據采集、數據轉換、數據傳輸、數據存儲等環節都要跟着改變,即使再謹慎也難以避免數據質量問題。

(2)錄入數據不規範

業務部門既是數據需求的提出方,也是數據的生産方。業務部門的人為因素是造成企業數據質量低下的一個非常重要的原因。常見的人為因素有拼寫錯誤,将數據輸入不匹配的字段,大小寫、全半角、特殊字符錄錯等,這些都會導緻數據輸入不規範問題。在技術上做一些輸入控制和校驗能夠減輕這個問題,但始終很難避免。

3.技術操作層面

(1)數據設計過程

在設計階段對數據模型質量的關注不足,需求理解不到位,甚至沒有與業務部門達成共識,結果可想而知,這樣的設計帶來的就是永無休止的需求變更。

數據庫表結構、數據庫約束條件、數據校驗規則的設計開發不合理,就會造成數據錄入無法校驗或校驗不當,引起數據重複、不完整、不準确。

(2)數據傳輸過程

數據傳輸包含數據采集、數據轉換、數據裝載、數據存儲等環節。

數據采集和轉換常見的問題,例如采集過程中采集點、采集頻率、采集内容、映射關系等采集參數和流程設置不正确,或者數據采集接口效率低,導緻數據采集失敗、數據丢失、數據映射和轉換失敗。

數據裝載和存儲常見的問題,例如數據存儲設計不合理,數據的存儲能力不夠,在後台人為調整數據,會引起數據丢失、數據無效、數據失真、記錄重複。

同時,數據接口本身也可能存在的問題,例如數據接口參數配置錯誤、網絡不可靠等都會造成數據傳輸過程中發生數據丢失或傳輸錯誤等數據問題。

(3)數據遷移過程

數據遷移是将數據從舊系統過渡到新系統,或從一個數據源遷移到另一個數據源。業務人員可能很難理解數據從一個應用系統切換到另一個應用系統時會有哪些困難。憑直覺,一個外行會期望事情已經“準備好”,這樣過渡對于業務用戶來說既容易又輕松。

但這絕對不符合現實。暫且不說遷移過程中涉及的數據采集、清洗、轉換、裝載等問題,可能你要遷移的數據源本來就存在質量問題,如果不對數據源的數據質量進行識别和處理,即使順利遷移,數據質量也無法保證。

— 04 —根因分析的方法

要了解究竟發生了什麼,就需要進行深入的研究。對于數據質量問題的剖析,筆者建議采用根因分析法,這是一種常見的因果問題分析方法,它有助于深入挖掘并找到有效的解決方案。采用根因分析法進行數據質量問題分析主要有4個步驟,如圖所示。

數據有效性分析方案(數據質量管理之根因分析)2

圖:數據問題根因分析步驟

步驟一:定義數據問題

定義企業數據質量問題,可以采取問卷調查、現場調研等方式,盡可能收集到全部的企業數據質量問題,并收集與之相關的數據和證據,這對于了解當前情況是必要的。對于輕微的異常事件,可考慮進行個人專訪,如采訪業務系統的管理員或業務部門的關鍵用戶。

對收集到的數據問題進行歸納和整理,并根據數據質量維度進行适當的歸類。歸類的好處是有助于對每類數據問題進行深度剖析,便于找出糾正措施。

創建數據問題的描述,其中應包含數據問題的基本信息,例如誰、在什麼時間、什麼地點(或系統)、發生了什麼問題、造成了哪些影響(包括實際影響和潛在影響)。定義問題的影響是為了确定數據問題處理的優先級,為後續制定适當的解決方案提供支撐。

步驟二:找出問題的主要因素

找到造成數據質量問題的直接原因,包括人為因素、技術因素、系統因素、設備因素、可控或不可控的外在環境因素、流程因素和其他因素等。

一方面,找到造成數據質量問題的涉及的業務流程和相關标準文件,明确執行的業務流程操作是否與數據标準設計相一緻,例如必輸項輸入是否完整準确;另一方面,評估數據标準設計或數據管理涉及的操作流程是否有問題。在這個過程中,需要召集直接參與流程和執行糾正措施的人員及專家,他們的意見有助于快速找到數據問題的解決方案。考慮每個因素,集思廣益,探讨可能與之相關的問題的原因。

采用5Why法(連續問5個為什麼)進一步深入探究:首先,提問為什麼會發生當前的數據質量問題,并對可能的答案進行記錄;然後,逐一對每個答案問一個為什麼,并記錄下原因,努力找出問題的主要因素,再對所有的原因進行分析。這種方法通過反複問為什麼,能夠逐漸深入問題,直到找到問題的根本原因。

下面将重點介紹這個方法的使用,請不要走開!

步驟三:确認問題的根本原因

經過以上兩個步驟,基本上能夠篩選出數據問題發生的根本原因了,這時還需要對引發數據質量問題的根本原因和根本原因之間的關系進行确認。可以做以下3個假設。

  • 假設此原因不存在,數據質量問題還會發生嗎?
  • 假設此原因被糾正或排除,此數據質量問題還會因其他相同或相近因素而再次發生嗎?
  • 假設此原因被糾正或排除,還會發生類似的數據質量問題嗎?

此時,列出與數據問題相關的系統分類,例如管理方面、業務方面、技術方面、環境與設備方面等。從系統分類中篩選出根本原因并确認其與根本原因之間的關系。

步驟四:制定和執行解決方案

找到根本原因後,就要進行下一個步驟:制定并執行解決方案,從根本上解決問題。這是另一個獨立的過程,也被稱為改正和預防。我們在尋找根本原因的時候,必須對每一個已找出的原因進行評估,給出改正的辦法,因為這樣做有助于整體改善和提高。例如,假設某個數據質量問題是由業務人員操作不當引發的,這就需要一方面加強對相關業務人員的培訓,另一方面從技術上進行适當的調整,提供更友好、易用的功能,以避免數據問題再次發生。

— 05 —根因分析的工具

我們在進行數據質量問題的根因分析時,可以使用的工具有很多,常用的工具有魚骨圖、5Why圖、故障樹圖、帕累托圖等。

1、魚骨圖

魚骨圖是由日本管理大師石川馨先生提出的一種把握結果和原因的方便而有效的方法,故名“石川圖”,它是一種透過現象看本質的分析方法,非常适用于數據質量問題的根因分析。

魚骨圖是因果分析中常用的工具。首先,需要從多個維度對引發問題的直接原因進行歸集;其次,依次列出直接原因所導緻的問題“事實”;然後,分析每一個“事實”發生的原因;最後最終找到導緻問題發生的根本原因。魚骨圖有助于探索阻礙結果的因素,适用于數據質量問題的分析。魚骨圖的組成見下圖:

數據有效性分析方案(數據質量管理之根因分析)3

圖:魚骨圖分析法

① 特性就是“問題的結果”,例如同一客戶不能唯一标識。

② 主骨用來引出問題,“問題”寫在右端,用方框圈起來,主骨用粗線畫,加箭頭标志。

③ 大骨用來表示問題的直接原因,例如圖19-5中的人員因素、系統因素、技術因素、流程因素、方法因素和環境因素。

④ 中骨用來描述事實,例如業務操作不當、操作失誤等。

⑤ 小骨用來描述為什麼會那樣,例如對系統操作不熟悉、随意性輸入等。

⑥ 主因用紅色的橢圓圈定問題的主因,主因不一定發生在末級,在大骨、中骨、小骨每一級均可能發生主因。

2、5Why圖

5Why圖,也稱5Why分析法或豐田5問法。5Why分析法在日系企業中用得很多,其首創是豐田公司的大野耐一,來源于一次新聞發布會。有人問:“豐田公司的汽車質量怎麼會這麼好?”他回答:“我碰到問題至少要問5個為什麼。”

簡單來說,5Why分析法的精髓就是多問幾個為什麼,鼓勵解決問題的人努力避開主觀假設和邏輯陷阱,從結果着手,沿着因果關系鍊條順藤摸瓜,穿越不同的抽象層面,直至找出原有問題的根本原因。

數據有效性分析方案(數據質量管理之根因分析)4

圖:5Why分析法

舉個實例,我們分析這個問題:同一客戶為什麼不能唯一識别。

  • 為什麼不能識别?

數據集中至少有兩條重複的記錄,這是現象。

  • 為什麼會有重複記錄?

數據源系統中的客戶數據就重複了,這是直接原因。

  • 為什麼數據源系統中的客戶數據會重複

業務員輸入的客戶數據重複了,這是進一步的原因。

  • 為什麼業務員會重複輸入?

新來的業務員對系統操作不熟悉,這是更深入的原因。

  • 業務員不熟悉系統就會重複輸入嗎?

信息系統缺乏對客戶ID的唯一性校驗。好了,找到問題的根本原因了。

5Why分析法可以幫助我們找出問題的根本原因,以便采取适當的改進措施,并為每個人分配需要采取的糾正措施。但是,“5Why”不是必須問5個為什麼,也可以是4個、6個,找到問題根本原因、解決問題就好。

3、故障樹圖

故障樹圖是一種邏輯因果關系圖,是一種圖形演繹法,是故障事件在一定條件下的邏輯推理方法,可針對某一故障事件進行層層追蹤分析(見下圖)。故障樹圖的特點是直觀明了,思路清晰,邏輯性強,既可以進行定性分析,也可以進行定量分析。它體現了以系統工程方法研究安全問題的系統性、準确性和預測性。

數據有效性分析方案(數據質量管理之根因分析)5

圖:故障樹分析法

使用故障樹圖來确定數據質量問題的可能原因。故障樹從問題的頂部開始,而可能的原因在下面,這是一種自上而下的推演方法。首先,分析頂問題發生的直接原因,将頂問題作為邏輯的輸出事件,将所有引起頂問題的直接原因作為輸入事件,将它們之間的邏輯關系用适當的邏輯連接起來。然後,對每一個中間問題用同樣方法逐級向下分析,直到所有的輸入問題都不需要再分解(找到問題的根本原因)為止。

4、帕累托圖

帕累托圖是條形圖和折線圖的組合,條形圖的長度代表問題的頻率,折線表示累積頻率,橫坐标表示影響質量的各項因素,按影響程度的大小(出現頻數)從左到右排列(見下圖)。通過對排列圖的觀察分析可以抓住影響質量的主要因素,進而确定問題的優先級。

數據有效性分析方案(數據質量管理之根因分析)6

圖:帕累托圖分析法

帕累托圖是基于80/20法則的分析,即認為發生的全部問題中有80%是由20%的問題原因引起的。這意味着,如果有針對主要問題的解決方案,則可以解決大多數其他較小的問題。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved