雖然數據清理使用的技術可能會根據公司存儲的數據類型而有所不同,但您可以遵循以下基本步驟為您的組織制定框架。
第1步:删除重複或不相關的觀察結果
從數據集中删除不需要的觀察,包括重複的觀察或不相關的觀察。重複觀察在數據收集過程中最常發生。當您組合來自多個地方的數據集、收集數據或從客戶端或多個部門接收數據時,就有可能創建重複的數據。消除重複工作是這一進程中需要考慮的最大領域之一。
不相關的觀察是當你注意到觀察結果不适合你試圖分析的特定問題時。例如,如果您想要分析關于千禧一代客戶的數據,但您的數據集包括老一輩,您可以删除那些不相關的觀察。這可以使分析更有效,并盡量減少對主要目标的分心—以及創建更易于管理和性能更好的數據集。
第2步:修複結構錯誤
結構性錯誤是指當您測量或傳輸數據時,注意到奇怪的命名約定、拼寫錯誤或不正确的大小寫。這些不一緻可能導緻錯誤的類别或類的标簽。例如,您可能會發現“N/A”和“不适用”都出現了,但它們應該作為同一個類别進行分析。
步驟3:過濾不需要的異常值
通常情況下,會有一次性的觀察,乍一看,它們似乎不符合您所分析的數據。如果您有一個合理的理由去删除一個異常值,比如不适當的數據輸入,那麼這樣做将有助于您所處理的數據的性能。然而,有時候一個異常值的出現會證明你正在研究的理論。記住:一個異常值的存在并不意味着它是錯誤的。需要此步驟來确定該數字的有效性。如果一個異常值被證明與分析無關,或者是一個錯誤,考慮删除它。
步驟4:處理丢失的數據
您不能忽略丢失的數據,因為許多算法不接受丢失的值。有幾種方法可以處理丢失的數據。這兩種方法都不是最優的,但都可以考慮。
作為第一種選擇,您可以删除缺少值的觀察值,但是這樣做會删除或丢失信息,所以在删除信息之前要注意這一點。
作為第二個選項,您可以根據其他觀察結果輸入缺失的值;同樣,數據可能會失去完整性,因為您可能是根據假設而不是實際觀察進行操作。
作為第三個選項,您可以更改數據的使用方式,以有效地導航空值。
步驟5:驗證和QA
在數據清理過程的最後,作為基本驗證的一部分,你應該能夠回答以下問題:
a, 這些數據有意義嗎?
b, 數據是否遵循其字段的适當規則?
c, 它是否證明或駁斥了你的工作理論,或帶來了什麼洞察力?
d, 你能從數據中找到趨勢來幫助你形成下一個理論嗎?
e, 如果不是,是因為數據質量問題嗎?
由于不正确或“肮髒”的數據而産生的錯誤結論可能導緻糟糕的業務策略和決策。當CPDA數據分析師意識到你的數據經不起推演時,錯誤的結論可能會導緻報告會議的尴尬時刻。在此之前,在組織中創建一種高質量數據的文化是很重要的。為此,數據分析師應該記錄創建這種文化可能使用的工具,以及數據質量對您的意義。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!