全文共2848字,預計學習時長8分鐘
圖源:Google
數據科學是一個跨學科領域,其基石之一是統計學。如果沒有足夠的統計知識,就很難理解或解釋數據。
統計學幫助解釋數據。我們使用統計學方法,根據從某個總體中抽取的樣本,推斷出該總體的結果。此外,機器學習和統計學也有很多交叉。要成為一名數據科學家,就需要學習統計學及其概念。本文将具體解釋10個基本的統計概念。
1.總體與樣本
總體是一個群體中的所有元素。例如,美國的大學生是包括美國所有大學生的總體。在歐洲25歲的人是一個總體,該總體包括所有符合該描述的人。
由于我們不能收集一個總體的所有數據,因此對總體進行分析有時是不可行或不可能的,因此,可以借助樣本進行分析。樣本是總體的一個子集。例如,1000名美國大學生是“美國大學生”總體的一個子集。
2.正态分布
概率分布是表示事件或實驗結果概率的函數。考慮數據幀中的一個特性(即列)。這個特征是一個變量,它的概率分布函數顯示了可以取值的區間。
概率分布函數在預測分析或機器學習中非常有用。我們可以根據某個總體樣本的概率分布函數來預測該總體。
正态(高斯)分布是一個概率分布函數,看起來像一個鐘型。下圖顯示了典型正态分布曲線的形狀。
曲線的峰值表示變量最可能采用的值。離峰值越遠,取該值的概率就越小。
3.量度集中趨勢
中心趨勢是概率分布的中心值(或典型值)。最常用的中心趨勢度量是平均數、中位數和衆數。
· 平均數是一列數值的平均值。
· 中位數是按升序或降序排序時中間的值。
· 衆數是最常出現的值。
4.方差與标準差
方差是值之間變化的度量。它的計算方法是求每個值和平均值的平方差,然後将這些平方差相加,最後将總和除以樣本數。
标準差是衡量數值分布的一種方法,它是方差的平方根。
5. 協方差和相關性
協方差是一種定量方法,它表示兩個變量的變化在多大程度上相互匹配。更具體地說,協方差以其平均值(或預期值)來比較兩個變量的偏差。
下圖顯示了随機變量X和Y的一些值。橙色點表示這些變量的平均值。這些值的變化與變量的平均值類似。因此,X和Y之間存在正值協方差。
兩個随機變量的協方差公式:
其中E是期望值,µ是平均值。
相關性是通過每個變量的标準差對協方差進行正态化。
其中σ是标準偏差。
這種正态化消除了單位,相關值始終在0和1之間。請注意,這是絕對值。如果兩個變量之間存在負相關性,則相關性介于-1和0之間。如果比較三個或更多變量之間的關系,最好使用相關性,因為值的範圍或單位可能會導緻其假設錯誤。
6.中心極限定理
随機變量的分布在社會科學的許多領域都鮮為人知,因此正态分布得以廣泛應用。
中心極限定理(CLT)解釋了為什麼正态分布可以用來證明這種極限情況。根據中心極限定理,當我們從一個分布中抽取更多樣本時,無論總體分布如何,樣本平均值都将趨向于正态分布。
思考這樣一個案例:我們需要了解一個國家所有20歲人群的身高分布。收集這些數據幾乎是不可能,也不實際的。所以,我們在全國範圍内抽取了20歲的人群樣本,計算樣本中人群的平均身高。中心極限定理指出,當我們從人群中抽取樣本越多時,樣本分布将越接近正态分布。
為什麼正态分布如此重要?正态分布是用均值和标準差來描述的,可以很容易地計算出來。如果知道正态分布的平均值和标準差,就可以計算出幾乎所有關于它的信息。
7.P值
P值是衡量随機變量取值可能性的量。假設有一個随機變量A和x值,x的p值是A取x值時的概率,或者是取任何其他值時,有相同或更少機會被觀察到的值的概率。
下圖顯示了A的概率分布,很容易就觀察到10左右的值。随着值的增大或減小,概率降低。
有另一個随機變量B,而且想看B是否大于A。從B中獲得的平均樣本均值為12.5。12.5的p值位于下圖中的綠色區域。綠色區域表示獲得12.5或更大極值的概率(在本例中高于12.5)。
假設p值是0.11,怎麼解釋呢?p值為0.11意味着我們對結果有89%的把握。換言之,該結果受随機事件影響的可能性有11%。類似地,p值為0.05意味着結果受到随機事件影響的可能性為5%。
如果随機變量B的樣本均值的平均值為15,這是一個更極端的值,p值将低于0.11。
8.期望值和随機變量
随機變量的期望值是該變量所有可能值的加權平均值。這裡的權重是指随機變量取特定值的概率。對于離散和連續随機變量,期望值的計算是不同的。
· 離散随機變量取有限多或可數無限多的值。一年中的雨天數是一個離散的随機變量。
· 連續随機變量取不可數的無窮多個值。例如,從家到辦公室的時間是一個連續的随機變量。根據你測量它的方式(分、秒、納秒等等),它需要無數個值。
離散随機變量期望值的公式為:
連續随機變量的期望值用相同的邏輯計算,但方法不同。因為連續的随機變量可以取不可數的無窮多個值,所以我們不能談論取特定值的變量。我們更關注其有價值的範圍。
為了計算值範圍的概率,使用概率密度函數(PDF)。PDF是一個函數,指定随機變量在特定範圍内取值的概率。
9.條件概率
概率單純是指事件發生的可能性,永遠取0到1(包括0和1)之間的值。事件A的概率表示為p(A),并有期望結果的數量除以所有結果的數量來計算。例如,當擲骰子時,得到小于3的數字的概率是2/6。期望結果數為2(1和2);總結果數為6。
條件概率是假設與事件A有關的另一個事件已經發生時,事件A發生的可能性。
如下所示,假設有兩個盒子,盒子裡放着6個藍色的球和4個黃色的球。我讓你随便挑一個球。得到藍球的概率是6/10=0,6。如果我讓你從A盒中挑一個球結果會怎樣?
選擇藍色球的概率明顯降低。這裡的條件是從A盒中取球,與之前事件(挑選一個藍色的球)發生的概率相比,發生了明顯改變。給定事件B已經發生的事件A的概率表示為p(A | B)。
10.貝葉斯定理
根據貝葉斯定理,在給定事件B已經發生的條件下,A發生的概率以及給定事件A已經發生的條件下,事件B發生的概率可以用事件A和事件B的概率來計算。
這就是所謂的普遍存在的貝葉斯統計定理。在貝葉斯統計定理中,事件或假設事件發生的概率可以作為證據發揮作用。因此,先驗概率和後驗概率因證據而異。
樸素貝葉斯算法是結合貝葉斯定理和一些樸素假設構造的。樸素貝葉斯算法假設特征是相互獨立的,特征之間沒有相關性。
當然,關于統計學還有很多東西要學。從基礎知識開始,你可以穩步地深入到高級主題。
留言點贊關注
我們一起分享AI學習與發展的幹貨
如轉載,請後台留言,遵守轉載規範
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!