對于數據科學的藝術,統計學可以說是一個強大的工具。從高層次的角度來看,統計是利用數學對數據進行技術分析。一個基本的可視化,如條形圖,可以給你提供一些高級的信息,但是通過統計學,我們可以以一種更加以信息驅動和更有針對性的方式來操作數據。所用到的數學方法能幫助我們對數據形成具體的結論,而不是去靠猜測。
通過使用統計學,我們可以更深入、更細緻地了解我們的數據到底是如何構造的,并基于這種結構,我們如何最佳地應用其他數據科學技術來獲取更多的信息。現在,我們來看看數據科學家們需要知道的5個基本統計概念,以及如何才能最有效地應用它們!
統計特征統計特征可能是數據科學中最常用的統計概念。它通常是你在探索數據集時應用的第一種統計技術,包括偏差(bias),方差,均值,中位數,百分位數等等。在代碼中理解和實現都非常容易!
箱形圖(也稱為盒須圖)
中值的線是數據的中位數(median )。由于中位數對離群值的魯棒性更強,因此中位數要比均值更常用。第一個四分位數(first quartile)基本上是第25個百分位,即數據中25%的點低于該值。第三個四分位數(third quartile)是第75百分位,即數據中75%的點低于該值。最小值和最大值表示數據範圍的上端和下端。
箱形圖完美地說明了我們可以用基本統計特征做什麼:
所有這些信息來自一些易于計算的簡單統計特征!隻要你需要快速而翔實的數據視圖,請嘗試這些。
概率分布我們可以将概率定義為某個事件發生的幾率。在數據科學中,通常被量化在0到1之間,0表示我們确信這不會發生,1表示我們确信它會發生。另外,概率分布是表示實驗中所有可能值概率的函數。如下圖:
常見的概率分布,依次為均勻分布,正态分布,泊松分布
均勻分布是三個中最基礎的。它在一定範圍内隻有單個值,而超出該範圍這值為0。這可以視為一個開/關分布。也可以把它看作是一個有兩個類别的分類變量:0或值。你的分類變量可能有多個非0的值,但我們仍然可以将其視為多個均勻分布的分段函數。
正态分布通常被稱為高斯分布,具體由它的均值和标準差定義。均值在改變分布空間,标準差控制離散。與其他分布(例如泊松)的主要區别在于标準差在所有方向上是相同的。因此,利用高斯分布,我們知道數據集的均值以及數據的離散,即它是在很大範圍内離散還是高度集中在幾個值附近。
一個泊松分布類似于正态分布,但增加了偏度。偏度值較低時,泊松分布将在所有方向上具有相對均勻分布,就像正态分布一樣。但是當偏度值的較大時,我們的數據在不同方向上的分布會有所不同,在一個方向上它将非常分散,而在另一個方向上它将高度集中。
你可以深入研究更多的分布,但這幾種分布已經給了我們很多有價值的線索。我們可以使用均勻分布快速查看和解釋我們的分類變量。如果我們看到高斯分布,我們知道有許多算法默認情況下會特别适用于高斯分布,所以我們應該使用這樣的算法。使用泊松分布,我們必須很小心地選擇一種對空間分布具有魯棒性的算法。
降維降維這個術語很容易理解。我們有一個數據集,我們想減少它的維度數。在數據科學中,維度數是特征變量的數量。如下圖:
降維
立方體表示我們的數據集,它有3個維度,總共1000個點。現在,計算1000點很容易處理,但如果有更大的規模,我們會遇到問題。然而,僅從二維視角(例如從立方體的一側)查看我們的數據,我們就可以看到從該角度劃分這些顔色非常容易。通過降維,我們可以将三維數據投射到二維平面上。這有效地将我們需要計算的點數從1000減少到100,大大節省了計算量!
我們也可以通過特征剪枝來降低維數。通過特征剪枝,我們基本上可以删除任何我們認為對我們的分析不重要的特征。例如,在研究數據集之後,我們可能會發現,在10個特征中,有7個與輸出高度相關,而其他3個具有的相關性非常低。那麼,這3個特征可能不值得計算,我們也許可以從我們的分析中删除它們,且不會影響輸出。
用于降維的最常見的統計技術是PCA,它基本上創建了特征的向量表示以顯示了它們對輸出的重要性((即它們的相關性))。PCA可用于執行上面讨論的兩種降維方式。
過采樣和欠采樣過采樣和欠采樣是用于分類問題的技術。有時,我們的分類數據集可能會過于傾斜于某一邊。例如,我們在類1中有2000個實例,而在類2中隻有200個。它可以迷惑許多我們嘗試和使用進行建模數據和作出預測的機器學習技術!而過采樣和欠采樣可以解決這個問題。如下圖:
在上圖中,我們的藍色類比橙色類有更多的樣本。在這種情況下,我們有兩個預處理選項可以幫助我們的機器學習模型的訓練。
欠采樣的意思是,我們将隻選擇多數類中的一部分數據,而使用少數類中盡可能多的實例。這個選擇需要保持類的概率分布。這很簡單,隻需少量樣本就可以使我們的數據集保持平衡!
過采樣的意思是,我們創建我們的少數類的副本,以便擁有與多數類相同數量的實例。制作副本,以維持少數類的分布。我們是在沒有獲得更多數據的情況下平衡了我們的數據集!
貝葉斯統計完全理解我們使用貝葉斯統計的原因要求我們首先了解頻率統計( Frequency Statistics)失敗的地方。頻率統計是大多數人在聽到“概率”一詞時所想到的統計數據類型。它涉及應用數學來分析某些事件發生的概率,即,我們計算的唯一數據是先驗數據。
我們來看一個例子。假設我給了你一個骰子然後問你擲出6的概率是多少。大多數人會說它是1 / 6。事實上,如果我們要進行頻率分析,我們會看有人滾動10,000次骰子,然後計算每個數字的頻率,它大概是1/6!
但是,如果有人告訴你,我們給你的是特殊的骰子,結果總是落在6上呢?由于頻率分析隻解釋以前的數據,分析給你的骰子被動過手腳的證據沒有被考慮在内。
貝葉斯統計确實考慮了這一證據。我們可以用貝葉斯定理來說明這一點:
貝葉斯定理
我們公式中的概率P(H)是我們的頻率分析,根據我們之前的數據,我們這個事件發生的可能性是多少。根據我們頻率分析的信息,我們方程中的P(E | H)被稱為似然性(likelihood),本質上是我們的證明是正确的概率。例如,如果你想要将骰子滾動10,000次,而前1000次滾動你得到的全部是6,你就會開始相信這個骰子被動了手腳!P(E)是實際證據成立的概率。如果我告訴你骰子被動手腳了,你能相信我并說它确實被動手腳了,而不是認為我在騙你!
如果我們的頻率分析非常好,那麼它就會有一定的權重來表示我們對6的猜測是正确的。同時,我們将之視為我們改裝骰子的證據,如果它為真或不基于它自己的先驗和頻率分析。從方程式可以看出,貝葉斯統計将一切都考慮在内,隻要你認為先前的數據不能很好地代表你未來的數據和結果,就可以使用它。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!