很多人應該都聽說過數據挖掘和數據統計分析,但估計隻是比較淺層的了解它們的含義,并沒有深層的去了解它們背後究竟有什麼本質的不同。科多大數據就帶大家離開了解一下數據挖掘和數據統計分析的區别是什麼?
從實踐應用角度來看,這個問題并沒有很大的意義,正如“不管黑貓白貓,抓住老鼠才是好貓”一樣,在企業的商業實戰中,數據分析分析問題、解決問題時,首先考慮的是思路,其次才會對與思路匹配的分析挖掘技術進行篩選,而不是先考慮到底是用統計技術還是用數據挖掘技術來解決這個問題。
從兩者的理論來源來看,它們在很多情況下都是極其相似的。
比如,在典型的數據挖掘技術的決策樹裡,CART、CHAID等理論方法都是基于統計理論所發展和延伸的;
并且數據挖掘中的技術有相當比例是用統計學中的多變量分析來支撐的。
相對于傳統的統計分析技術,數據挖掘有如下一些特點:
數據挖掘特别擅長于處理大數據,尤其是幾十萬行、幾百萬行,甚至更多更大的數據。
數據挖掘在實踐應用中一般都會借助數據挖掘工具,而這些挖掘工具的使用,很多時候并不需要特别專業的統計背景作為必要條件。
不過,需要強調的是基本的統計知識和技能是必需的。
在信息化時代,數據分析應用的趨勢是從大型數據庫中抓取數據,并通過專業軟件進行分析,所以數據挖掘工具的應用更加符合企業實踐和實戰的需要。
從操作者來看,數據挖掘技術更多是企業的數據分析師、業務分析師在使用,而不是統計學家用于檢測。
更主流的觀點普遍認為,數據挖掘是統計分析技術的延伸和發展,如果一定要加以區分,他們又有哪些區别呢?數據挖掘在如下幾個方面與統計分析形成了比較明顯的差異:
統計分析的基礎之一就是概率論,在對數據進行統計分析時,分析人員常常需要對數據分布和變量的關系做假設,确定用什麼概率函數來描述變量間的關系,以及如何檢驗參數的統計顯着性;
但是在數據挖掘的應用中,分析人員不需要對數據分布做任何假設,數據挖掘中的算法會自動尋找變量之間的關系。
因此,相對于海量、雜亂的數據,數據挖掘技術有明顯的應用優勢。
統計分析在預測中的應用常表現為一個或一組函數關系式,而數據挖掘在預測應用中的重點在于預測的結果,很多時候并不會從結果中産生明确的函數關系式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的。
最典型的例子就是“神經網絡”挖掘技術,它裡面的隐蔽層即使一個“黑箱”,沒有人能在所有的情況下讀懂裡面的非線性函數是如何對自變量進行組合的。在實踐應用中,這種情況常會讓習慣統計分析公式的分析師或者業務人員感到困惑,這也确實影響了模型在實踐應用中的可理解性和可接受度。
不過,如果能換種思維方式,從實戰的角度考慮,隻要模型能正确預測客戶行為,能為精細化運營提供準确的細分人群和目标客戶,業務部門、運營部門不了解模型的技術細節,又有何不可呢?
在實踐應用中,統計分析常需要分析人員先做假設或判斷,然後利用數據分析技術來驗證該假設是否成立。
但是,在數據挖掘中,分析人員并不需要對數據的内在關系做任何假設或判斷,而是會讓挖掘工具中的算法自動去尋找數據中隐藏的關系或規律。
兩者的思維方式并不相同,這給數據挖掘帶來了更靈活、更寬廣的思路和舞台。
雖然上面詳細闡述了統計分析與數據挖掘的區别,但是在企業的實踐應用中,我們不應該硬性地把兩者割裂開來,也無法割裂,在實踐應用中,沒有哪個分析師會說,“我隻用數據挖掘技術來分析”,或者“我隻用統計分析技術來分析”。成都加米谷教育大數據培訓,專注于大數據人才培養,雙節特惠學員活動進行中。
正确的思路和方法應該是:針對具體的業務分析需求,先确定分析思路,然後根據這個分析思路去挑選和匹配合适的分析算法、分析技術、而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索,最後可根據驗證的效果和資源匹配等一系列因素進行綜合權衡,從而決定最終的思路、算法和解決方案。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!