編輯導語:在進行數據分析前,需要耗費不少的時間在數據的清洗過程中。那麼,有什麼方法可以提高數據清洗的效率?作者通過總結自己的工作經曆,分享了在數據分析之前你需要了解的7件事情,希望對你有所啟發。
寫在前面
在進行數據分析之前,常常需要耗費大量的心力在對數據的清洗過程,比如,需要針對缺失數據、重複數據或錯誤數據等等進行預處理。還有很多小夥伴,在沒想好想要獲取哪些數據來驗證何種假設的情況下,就貿然開展采集工作。這些都是在進入數據分析環節前,非常重要但很容易被忽略的問題。
如前美國首席數據科學家 DJ Patil 所說:“不過分的說:任何數據項目中 80% 的工作都在采集清理數據。”
為了更好的避免這類問題的出現,在開展數據分析之前,需要圍繞在“問題的具體化描述”、“确立假設”中進行深入的剖析,這個時期的“慢即是快”。如果無法正确地定義問題、合理地拆解問題、抓住關鍵問題,後續的環節都是徒勞。
所以,正确的問題是指引你找到可靠解決的路标,而高質量的數據是數據分析的基石。我依據實際工作中的經曆,梳理了數據分析前你要知道的 7 件事,希望對你有所啟發。
以下,Enjoy~
通過本文,你可以了解:
一、5W1H 讓問題具體化,清晰需要采集什麼數據
- 5W1H 讓問題具體化
- 将商業思考拆解成可量化的數字
- 從假設出發采集數據
- 什麼是第一、二、三方數據?
- 哪些是可以直接利用的數據?
- 結構化和非結構化數據有什麼不同?
- 你采集的是好數據嗎?
在所有的研究工作開始之前,厘清目标問題是什麼,這是整個研究的核心。運用 5W1H (who -誰、when-時間、where-地點、what-什麼事、why-為什麼發生、how-如何發生),針對問題進行提問,有助于把問題具體化。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!