tft每日頭條

 > 科技

 > 企業統計數據質量提高

企業統計數據質量提高

科技 更新时间:2025-01-09 04:24:18

什麼是質量

關于質量是有個一個标準定義的:一組固有特性滿足明示的、通常隐含的或必須履行的需求或期望(要求)的程度。這裡面包含了兩層意思,一個是說質量其實是一組特性,另一個是說質量需要滿足需求或期望。所以如果從數據分析的角度來說數據質量,就是看當前數據的特性能否滿足我們做數據分析或挖掘這個需求。

質量問題的來源

數據問題的來源可能産生于從數據源頭到數據存儲介質的各個環節。在數據采集階段,數據的真實性、準确性、完整性、時效性都會影響數據質量。除此之外,數據的加工、存儲過程都有可能涉及對原始數據的修改,從而引發數據的質量問題。所以,技術、流程、管理等多方面的因素都有可能會影響到數據質量。

在企業中,随着企業業務的增長,數據也是一個增量積累的過程。随着數據類型、數據來源的不斷豐富以及數據數量的快速增長,企業在數據管理工作和數據流程中面臨越來越多的數據質量問題。而且數據質量的管理并沒有被企業重視起來,其根本原因還是ROI并沒有那麼明顯。

數據質量管理相對來說成本比較高。因為它涉及到企業數據标準的制定、規範的落地、生命周期的管理等多個環節。從收益上來說,數據質量的效益和結果并不是十分明顯,大部分企業不會把數據質量作為KPI。在企業的不同系統中,業務領域的關鍵指标不一緻,數據無法共享導緻出現數據孤島,大量數據無法關聯,并且有明顯的數據冗餘等問題,還有數據的維護需要投入大量的人員、時間、軟硬件成本。所以數據的質量管理往往被會邊緣化甚至趨向于無。

接下來我們盤點下企業一般都會遇到哪些數據質量問題:

數據真實性:數據必須真實準确的反映客觀的實體存在或真實的業務,真實可靠的原始統計數據是企業統計工作的靈魂,是一切管理工作的基礎,是經營者進行正确經營決策必不可少的第一手資料。

數據準确性:準确性也叫可靠性,是用于分析和識别哪些是不準确的或無效的數據,不可靠的數據可能會導緻嚴重的問題,會造成有缺陷的方法和糟糕的決策。

數據唯一性:用于識别和度量重複數據、冗餘數據。重複數據是導緻業務無法協同、流程無法追溯的重要因素,也是數據治理需要解決的最基本的數據問題。

數據完整性:數據完整性問題包括:模型設計不完整,例如:唯一性約束不完整、參照不完整;數據條目不完整,例如:數據記錄丢失或不可用;數據屬性不完整,例如:數據屬性空值。不完整的數據所能借鑒的價值就會大大降低,也是數據質量問題最為基礎和常見的一類問題。

數據一緻性:多源數據的數據模型不一緻,例如:命名不一緻、數據結構不一緻、約束規則不一緻。數據實體不一緻,例如:數據編碼不一緻、命名及含義不一緻、分類層次不一緻、生命周期不一緻……。相同的數據有多個副本的情況下的數據不一緻、數據内容沖突的問題。

數據關聯性:數據關聯性問題是指存在數據關聯的數據關系缺失或錯誤,例如:函數關系、相關系數、主外鍵關系、索引關系等。存在數據關聯性問題,會直接影響數據分析的結果,進而影響管理決策。

數據及時性:數據的及時性(In-time)是指能否在需要的時候獲到數據,數據的及時性與企業的數據處理速度及效率有直接的關系,是影響業務處理和管理效率的關鍵指标。

數據質量評估

那麼我們如何對一份數據進行質量評估呢?這是一個比較難以回答的問題。因為數據質量本身有這麼幾個問題。首先是數據質量定義不一緻,人們對數據質量的理解并沒有一個參考标準或者标準的定義,所以人們理解的數據質量就會呈現出多樣性,而無論是數據評估體系還是數據質量控制體系,都離不開關于數據質量的清晰定義。其次,沒有權威性的數據質量标準模型或參考模型。再者,沒有系統化的數據質量評估指标,也沒有對數據質量評估的指标形成一個量化的标準。所以現在多數對于數據質量的研究都是針對特定領域或特定問題的研究,并不具有普适性,很難推廣成為标準化的體系或模型。

提高數據質量的方法

要想真正解決數據質量問題,明确業務需求并從需求開始控制數據質量,并建立數據質量管理機制。從業務出發做問題定義,由工具自動、及時發現問題,明确問題責任人,通過郵件、短信等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數據質量問題全過程的管理

正所謂,工欲善其事,必先利其器。億信華辰睿治數據治理平台的數據質量管理模塊以全面質量管理PDCA循環管理方法為指導,充分結合國内數據質量管理工作的特點,運用元數據管理、數據挖掘、數據分析、工作流、評分卡、可視化等技術最終幫助企業和政府建立數據質量管理體系,全面提升數據的完整性、規範性、及時性、一緻性、邏輯性等,降低數據管理成本,減少因數據不可靠導緻的決策偏差和損失。

企業統計數據質量提高(企業提高數據質量的方法)1

1、構建數據質量規則庫

定義數據驗證方法,内嵌空值檢查、值域檢查等13種檢查規則,基本覆蓋目前數據質量相關問題。

2、發現數據質量問題

靈活定義多模型質檢方案,多點監測、多模型質檢方案,高效調度,并發和串行處理相結合,性能高效,隻需2分30秒,便可完成20條規則百萬級數據的質量檢查。

3、出具全面的“體檢報告”

内置常規質檢分析報告,實時可視化呈現質檢結果,質檢結果模型靈活擴展,充分利用了BI工具的分析展現能力,提供圖文并茂的質量檢查結果報告。

4、數據質量全流程管理

提供從标準定義、質量監控、績效評估、質量分析、質量報告、重大問題及時告警、流程整改發起、系統管理等數據質量管理全過程的功能,不僅能發現問題、還能将問題分發給數據負責人、管理者,在線跟蹤問題處理進展。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved