如何快速入門數據挖掘?本文将以工程界公認的實施步驟為基礎,并結合小編的多年工作經驗,來給你打開數據挖掘的冰山一角。
其實工程界經過多年的實戰經驗,已經對數據挖掘形成了自己一套标準流程,該流程英文名叫CRISP-DM(Cross-industry Standard Process for Data Mining),中文名是“跨行業數據挖掘标準流程”,該流程是對數據挖掘生命周期的全面描述,共包含了6個步驟,其中特别注意的是該步驟并不是按照直線順序進行,而是根據實際項目情況,經常會回到上一個步驟中。
那麼,每步驟具體要做什麼?需要注意哪些點?不急!咱們往下看。
業務理解是指能夠界定業務問題範圍和理解業務目标,并能夠根據具體業務需求,制定靈活的措施。該步驟作為第一步當然是至關重要,因為它指明了數據挖掘的分析方向和範圍。有句俗話說的好“方向比努力更重要”。
為了更好的理解該步驟,就以小編的工作經曆給大家說一下。有一天,領導在辦公室突然大叫一聲:“這個月收入下滑低太刺激,客戶流失太嚴重了,吓死寶寶了”,并走到你的面前,“小王,你不是在玩數據建模嗎,建一個客戶流失模型吧,看看如何挽留客戶提升收入。”小編接到這個艱巨的任務,頭腦中靈光一閃,明白了領導的意圖應該包含了三個問題。
3)一緻性分析
一緻性分析包括不一緻影響和不一緻産生原因
不一緻影響:數據不一緻主要是指數據的矛盾性、不相容性等原因造成的;如果不處理會導緻相反的結果;
不一緻産生原因:名稱不一緻,如終端品牌或機型的中英文;重複存放的數據未進行一緻性更新;不同數據來源的數據,統計口徑不同,導緻數據不一緻;
(2)數據特征分析
數據特征分布包括分布分析、對比分析、統計量分析、周期性分析、貢獻度分析、相關性分析。主要了解數據自身的分布情況以及數據間的關聯情況。
1)分布分析
分布分析可以揭示數據的分布特征和分布類型。
針對定性數據,可以做餅形圖或條形圖反應分布類型;
針對定量數據,可以做頻率圖或直方圖進行直觀地分析;
2)對比分析
對比分析是指把兩個相關聯系的指标進行橫縱向或時間序列的對比分析
絕對數比較;利用絕對數進行比較;
相對數比較;用兩個有聯系的指标對比計算,包括結構相對數;比例相對數;強度相對數;動态相對數;完成度相對數;
3)統計量分析
統計量分析是用統計指标對數據進行統計描述,主要包括集中趨勢和離中趨勢兩方面度量
集中趨勢:反應平均水平的指标,即集中程度,主要包括平均數、中位數、衆數等指标。
離中趨勢:反應變異程度的指标,即偏離平均水平的程度,主要包括極差、标準差、變異系數,四分位數間距
4)周期性分析
周期性分析是探索某變量的變化是否随時間呈現周期性變化,主要有年、季度、月度、周、天、時等周期變化.
5)貢獻度分析
貢獻度分析又稱20/80定律。同樣的投入對不同客戶會産生不同的收益
6)相關性分析
相關性分析是指用适當的統計指标來反映連續性變量之間線性相關程度的強弱。主要分析方式包括散點圖和相關性系數
散點圖
相關系數:Pearson相關系數、Spearman秩相關系數和判定系數
數據準備是指通過将收集的數據進行清洗、集成、變換和集約等預處理,以提升數據質量,同時進一步根據對業務的理解,生成一些有業務含義的衍生變量,并最後整理成可以進行數據挖掘的寬表形式的過程。
數據清洗:主要删除無關數據、重複數據、平滑噪音數據、處理缺失值、異常值等;
數據集成:是将多個數據源合并存放在一個一緻的數據儲存中的過程;
數據變換:對數據規範化,變量離散化,構造屬性,将數據轉變成“适當的”形式;
數據規約:産生更小的但保持原數據完整性的新數據集,屬性規約和數值數值規約;
數據準備過程将占數據挖掘整個過程的60%甚至更多時間。該過程有些書本成為特征工程,如果特征建立的好,即使建立一個簡單的模型,也會産生很好的效果。
建立模型主要是選擇和應用各種建模技術或算法,同時對它們的參數進行調整已到達最優值的過程。在明确建模技術或算法後,需要确定模型參數和輸入變量。主要包括變量選擇、算法選擇和參數調整。
(1)變量選擇
如果過多變量入選可能削弱主業務變量,結果不易解釋,過少變量入選導緻信息丢失,因此在變量選擇過程中常用的方法,包括相關性分析,逐步向前法,逐步向後法。
(2)算法選擇
現在模型算法較多,如決策樹、邏輯回歸、神經網絡等,因此需要從多個角度考慮來選擇合适的模型算法,可用從業務角度和可用性角度出發。
業務角度的考慮:是否滿足業務場景和調整;
模型可用性角度考慮:決策樹的結果具有可解釋性,人工神經網絡準确度較高,但内部是黑匣子。
(3)參數調整
參數配置不同可能會導緻模型的性能顯著差距。一般的做法是對每個參數選定一個範圍和變化步長,通過對不同參數對比分析,選擇最優的模型參數。另外建模是的數據源不同,即使方法相同,也會導緻參數不同。
建立模型是數據挖掘的核心階段,該階段需要熟練掌握數據算法,能夠根據結果來調整優化模型。
模型評估主要從技術和業務兩個層面進行評估,一是技術人員從技術角度對模型效果進行評估,二是業務人員對模型在現實環境中的實用性進行評估。模型評估是數據挖掘走向實際應用的重要階段。一般使用的評估方法包括混沌矩陣和ROC。
(1)分類結果混沌矩陣
查準率、查全率和準确率指标越高模型性能越好。
(2)ROC曲線
ROC曲線是根據一系列不同的二分類方式(分界值或決定阈),以真陽性率(靈敏度)為縱坐标,假陽性率(1-特異度)為橫坐标繪制的曲線。
ROC曲線越靠左上角或AUC的面積越大,模型的準确率越高。
模型發布是将構建的模型進行系統化和自動化處理,在模型實施的過程中實時監控和維護模型的運轉,同時要基于業務的發展階段和需求,對模型進行重構。
(1)總結·沉澱
√ 回顧整個建模過程,總結經驗教訓,為後期的經驗項目做沉澱積累;
√ 将模型的構建過程形成文檔,如 《XX模型構建說明書》
√ 可将優秀的模型進行分享;
(2)監控·維護
√ 建立模型監控機制和日常維護制度;能夠保證模型的正常運轉;
√ 監控設計模型的硬件設施,計算能力,數據接入情況等;
(3)起點·重構
√ 随着業務的發展變化,模型的适用性和效果可能也會發生變化,有必要對模型進行升級或重構;
√ 随着數據源的不斷豐富,也需要持續的優化模型的性能;
另外,入門後如何提升數據挖掘能力?小編的經驗僅供參考。
多看:系統地看些數據挖掘或機器學習的專業書,來搭建自己完整的知識體系。如周志華的《機器學習》、《統計建模與R語言》、《數據分析與挖掘實戰案例精粹》等相關書籍。
多學:對向牛人學習,關注他們寫的博客(如數據鋪子),微信公衆号(如數據挖掘入門與實戰),公開課(如斯坦福大學Andrew Ng教授《機器學習》)等
多練:可以根據經典案例代碼實操,參加數據建模競賽(如kaggle,阿裡天池等),工作中的項目經驗等。
隻要不斷的堅持學習,相信總有一天,你也可以成為數據挖掘領域的專家。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!