在數據科學藝術的執行中,統計可以說是一個強大的工具。從高層次來看,統計學是利用數學對數據進行分析的學科。基本的可視化(柱狀圖等)會給受衆一些深層的信息,但通過統計,我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。
通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的确切結構,并在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
統計特征(Statistical Features)
統計特征可能是數據科學中最常用的統計概念。它通常是你在研究數據集時使用的第一種統計技術,包括偏差(bias)、方差(variance)、平均值(mean)、中位數(median)、百分位數(percentiles)等。這很好理解,在代碼中也非常容易實現。下圖可以說明這些特征。
一個基本的箱須圖(box- whisker-plot)
中間的那條線是數據的中位數(median),中位數比平均值(mean)更常用,因為它更不容易受到極端數值的影響。第一四分位數(first quartile,Q1)實際上是第25%的數,換句話說,是樣本所有數值由小到大排列後第25%的數字。第三四分位數(third quartile,Q3)是第75%的數,即樣本所有數值由小到大排列後第75%的數字。上限和下限即樣本數據非異常範圍内的最大值和最小值。第一四分位數和第三四分位數組成箱須圖中的箱子(box plot),第一四分位數-下限以及第三四分位數-上限連接的線段即須(whisker)
箱須圖完美地說明了我們可以用基本統計特征得出什麼結論:
所有這些信息都來自于很容易計算的簡單統計特征!當你需要快速獲取有意義的數據統計圖時,你可以試着畫箱須圖。
概率分布(Probability Distributions)
概率能夠反映随機事件出現的可能性大小。在數據科學中,概率通常被量化在0-1之間,概率為0意味着不可能事件(一定條件下必然不發生的事件),概率為1表示必然事件(一定條件下必然發生的事件)。概率分布是一個函數,表示實驗中所有可能值的概率。下圖可以幫你理解概率分布。
常見的概率分布。
均勻分布(左)、正态分布(中)、泊松分布(右)
還得說一句題外話,除了上述三種分布之外,還有其他非常多的概率分布,你都可以深入研究,但這三種分布已經給我們提供了相當多的價值。我們可以用均勻分布快速查看和解釋分類變量。如果看到高斯分布,那我們知道有許許多多算法,它們在默認情況下都會執行地非常優異,我們應該選擇它們。對于泊松分布,我們發現必須謹慎地選擇一種算法,它擁有足夠的魯棒性應對時空的變量。
維數約簡(Dimensionality Reduction)
維數約簡這個術語很好理解:有一個數據集,我們想減少它的維度數量。在數據科學中,這個數量是特征變量的數量。維數約簡的意義就是降低原來的維數,并保證原數據庫的完整性,在約簡後的空間中執行後續程序将大大減少運算量,提高數據挖掘效率,且挖掘出來的結果與原有數據集所獲得結果基本一緻。更廣泛的說就是防止了維數災難的發生。看下圖獲得更詳細的解釋:
維數約簡
立方體代表我們的樣本數據集,它有三個維度,共1000個點。以現有的計算能力,1000個點很容易就能處理,但處理更大範圍的數據還是會遇到問題。然而,僅僅從二維的角度來看數據集,比如從立方體的一側來看,我們可以看到區分所有的顔色還是很容易的。通過維數約簡,我們可以将三維數據投射(project)到二維平面上。這把我們需要計算的點數減少到100,有效地節約了大量的計算時間。
另一種維數約簡的方式是特征修剪(feature pruning)。利用特征修剪,我們基本可以删去對我們的分析不重要的特征。例如,研究一個數據集之後,我們可能發現該數據集有10個特征,其中,有7個特征與輸出有很高的相關性,而其餘3個相關性不高。那麼這3個低相關性特征可能就不值得計算了,我們可以在不影響輸出的情況下從分析中删掉它們。
最常用的維數約簡方法是主成分分析(PCA),本質上是創建新的向量,這些向量可以盡可能多地反映原始變量的信息特征(即它們的相關性)。PCA可用于上述兩種維數約簡方式。在這個教程中可以獲得更多相關信息。
過采樣和欠采樣(Over and Under Sampling)
過采樣和欠采樣是用于分類問題的統計技術。有時,分類數據集可能過于偏向于一邊。例如,類别1有2000個樣本,類别2隻有200個。我們能夠用來建模、預測的許多機器學習技術都沒法用了!但是,過采樣和欠采樣可以解決這個問題。請看這張圖:
欠采樣(左)和過采樣(右)
上圖裡,兩張數據圖中藍色類别的樣本比橙色多多了。在這種情況下,我們有兩個預處理選項,可以幫助訓練我們的機器學習模型。
欠采樣意味着我們從多數類中選擇一些數據,隻使用和少數類數量一緻的樣本。這種選擇不是随便挑選的,而是要保證類的概率分布不變。這很容易!我們選取少量樣本,使樣本數據集更加均勻。
過采樣意味着創建少數類樣本的副本,使少數類與多數類擁有數量一緻的樣本。副本創建需要保證少數類的概率分布不變。我們不需要收集更多的樣本就能使樣本數據集更加均勻。
貝葉斯統計(Bayesian Statistics)
想要完全理解為什麼我們要用貝葉斯統計,首先需要理解頻率統計(Frequency Statistics)的缺陷。頻率統計是大多數人聽到“概率”一次時首先會想到的一種統計類型,頻率統計檢測一個事件(或者假設)是否發生,它通過長時間的試驗計算某個事件發生的可能性(試驗是在同等條件下進行的),唯一計算的數據是先驗數據(prior data)。
可以看這個例子。假如我給你一個骰子,問你擲出6的幾率是多少。大多數人會說是1/6。确實如此,如果做頻率分析,某人抛擲骰子10000次,計算每個數字出現的頻率,那麼我們可以看到結果每個數字出現的頻率大約是1/6。
但如果有人告訴你,給你的骰子不那麼規整,總是6朝上呢?由于頻率分析隻考慮了之前的數據,上述分析中,骰子不規整的因素沒有被考慮進去。
而貝葉斯統計就考慮了這一點。我們可以用下圖的貝葉斯法則(Baye’s Theoram)來說明:
貝葉斯法則
方程中,H代表一個事件,E代表另一個,P即某事件發生的概率。
P(H)即先驗概率,基本上就是數據分析的結果,即之前事件H發生的概率。
P(E|H)被稱作相似度,指假設事件H成立時,事件E發生的概率。
P(E)指事件E成立的先驗概率,也被稱作标準化常量。
P(H|E)即後驗概率,指E發生後,發生H的概率。
例如,如果你想投擲骰子10000次,前1000次全擲出的是6,你很懷疑骰子不規整了。如果我告訴你骰子确實不規整,你是相信我,還是認為這是個騙局呢?
如果頻率分析沒有什麼缺陷,那麼我們會比較自信地認定接下來的投擲出現6的概率仍是1/6。而如果骰子确實不規整,或是不基于其自身的先驗概率及頻率分析,我們在預測接下來數字出現的概率時,就必須要考慮到骰子的因素。當我們不能準确知悉一個事物的本質時,可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。正如你從方程式中能能看到的,貝葉斯統計把所有因素都考慮在内了。當你覺得之前的數據不能很好地代表未來數據和結果的時候,就應該使用貝葉斯統計。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!