作者 | KHYATI MAHENDRU
編譯 | CDA數據分析師
原文 | An Introduction to the Powerful Bayes' Theorem for Data Science Professionals
概率是許多數據科學算法的核心 。實際上,解決這麼多數據科學問題的方法本質上都是概率性的-因此,我始終建議在着手研究算法之前,着重學習一下統計數據和概率。
但我看到很多有能力的數據科學家都在回避統計這一方面的知識,尤其是貝葉斯統計。許多分析師和數據科學家仍然無法理解這一點。我相信你們很多人都對此點頭贊同吧!
貝葉斯定理是貝葉斯統計的一個主要方面,是由生活在18世紀的僧侶托馬斯·貝葉斯(Thomas Bayes)提出的。我們仍在學習貝葉斯統計的這一事實,表明他的作品在多個世紀以來都具有巨大的影響力!貝葉斯定理使我們能夠解決複雜的數據科學問題,并且仍然領先在世界領先的大學教授。
在本文中,我們将詳細探讨貝葉斯定理及其應用,包括樸素貝葉斯分類器和判别函數等。本文有很多要解壓的内容,讓我們開始吧!
在進入貝葉斯定理的世界之前,我們需要了解一些概念。這些概念本質上是理解貝葉斯定理的前提條件。
當您聽到“實驗”一詞時,您想到的第一張圖片是什麼?包括我在内的大多數人都想象有一個充滿試管和燒杯的化學實驗室。概率論中的實驗概念實際上非常相似:
實驗是在受控條件下執行的有計劃的操作。
實驗的例子包括抛硬币,擲骰子和從洗好的牌中抽出一張。
實驗的結果稱為實驗結果。事件的所有可能結果的集合稱為樣本空間。例如,如果我們的實驗是擲骰子并記錄其結果,則樣本空間将為:
S1 = {1,2,3,4,5,6}
當我們扔硬币時,樣本将是什麼?在看到下面的答案之前,請仔細的想一想:
S2 = {H,T}
事件是實驗結果的集合(即樣本空間的子集)。
讓我們回到擲骰子的實驗中并将事件E和F定義為:
這些事件發生的可能性:
P(E)=有利結果數/可能結果總數= 3/6 = 0.5 P(F)= 3/6 = 0.5
集合論中的基本運算,也就是事件的并集和交集是可能的,因為一個事件就是一個集合。
E∪F= {2,4,5,6}和E∩F= {4,6}
現在考慮一個事件G =獲得一個奇數:
那麼E∩G=空集=Φ
這種事件稱為不相交事件。這些也稱為互斥事件,因為一次實驗隻能在兩個事件中發生一個:
随機變量的确切含義就像它聽起來的那樣—一個具有随機值的變量,每個值都有一定的概率(可能為零)。它是在實驗的樣本空間上定義的實值函數:
讓我們來看一個簡單的示例(請參考上面的圖片)。在抛硬币實驗的樣本空間上定義一個随機變量X。如果獲得“ Heads”(正面),則值為 1;如果獲得“ Tails”(反面),則值為-1。然後,X取值為 1和-1,概率為1/2。
假設Y是某一天某一地點的觀察溫度(攝氏溫度)。因此,我們可以說Y是一個連續的随機變量,定義在相同的空間上,S =[0,100](攝氏溫标定義在0攝氏度到100攝氏度之間)。
如果必須在任何時間發生至少一個事件,則認為一組事件是詳盡的。因此,如果A∪B = S,即在樣本空間内兩個事件A和B被認為是窮舉性的。
例如,假設A是從包裝中抽出的紙牌是紅色的事件,B是抽出的紙牌是黑的事件。這裡,A和B是窮舉性的,因為樣本空間S = {red,black}。很簡單的東西,對不對?
如果一個事件的發生對另一事件的發生沒有任何影響,則可以說這兩個事件是獨立的。從數學上講,如果滿足以下條件,則兩個事件A和B被認為是獨立的:
例如,如果A在擲骰子時獲得5,而B從一副洗的特别好的一堆紙牌中抽出了紅桃K,那麼A和B就其定義而言來說就是獨立的。識别獨立事件通常不那麼容易,因此我們使用上面提到的公式。
假設我們從給定的牌堆中抽出一張牌。是黑牌的概率是多少?很簡單- 1/2,對吧?然而,如果我們知道它是一張黑牌,那麼它是一張國王牌的概率是多少?
解決這個問題的方法并不那麼簡單。
這就是條件概率概念起作用的地方。條件概率被定義為一個事件A發生的概率,前提是另一個事件B已經發生(即A條件B)。這由P(A | B)表示,我們可以将其定義為:
P(A | B)= P(A∩B)/ P(B)
讓事件A代表選擇國王,事件B代表黑牌。然後,使用上述公式找到P(A | B):
P(A∩B)= P(獲得一張國王黑卡)= 2/52 P(B)= P(撿黑卡)= 1/2
因此,P(A | B)= 4/52。根據您選擇的示例進行嘗試。這将幫助您很好地掌握整個概念。
它是一個事件A發生的概率,獨立于任何其他事件B,即邊緣化事件B。
邊際概率P(A)= P(A | B)* P(B) P(A |〜B)* P(〜B)
這隻是一種奇特的說法:
P(A)= P(A∩B) P(A∩〜B)#根據我們對條件概率的了解
其中〜B表示未發生B的事件。
讓我們來驗證一下邊際概率的概念是否成立。這裡,我們需要計算抽到的随機紙牌是紅色(事件a)的概率,答案顯然是1/2。 。讓我們通過事件B的邊際概率計算得出國王的概率。
P(A∩B)= 2/52(因為有兩個是紅色的國王,一個是紅心,另一個是方塊)
并且P(A∩〜B)= 24/52(紅色的剩餘的牌) 因此,P(A)= 2/52 24/52 = 26/52 = 1/2
完美!因此,這足以涵蓋我們貝葉斯定理的基礎知識。現在讓我們花一些時間來了解貝葉斯定理的确切含義以及其工作原理。
你看過熱門電視劇《神探夏洛克》(或任何犯罪驚悚劇)嗎?想想看,我們對罪魁禍首的看法在整集裡都在改變。我們處理新的證據,并在每一步完善我們的假設。這就是現實生活中的貝葉斯定理!
現在,讓我們從數學上理解它。這将是相當簡單的,因為我們的基礎是清楚的。
假設A和B是樣本空間S中P(B)≠0的任意兩個事件。利用我們對條件概率的理解,我們有:
P(A|B) = P(A∩B) / P(B) 類似地,P(B|A) = P(A∩B) / P(A) 由此可見,P (A∩) = P (A | B) * P (B) = P (B |) * P (A) 因此,P(A|B) = P(B|A)*P(A) / P(B)
這就是貝葉斯定理。
這裡,P(A)和P(B)是獨立觀察A和B的概率。這就是為什麼我們說它們是邊際概率。P(B|A)和P(A|B)是條件概率。
P(A)稱為先驗概率,P(B)稱為證據。
P(B)= P(B | A)* P(A) P(B |〜A)* P(〜A)
P(B | A)稱為可能性,P(A | B)稱為後驗概率。
等價地,貝葉斯定理可以寫成:
後驗=可能性*先驗/證據
這些詞聽起來可能很花哨,但它們背後的基本思想其實很簡單。當你有任何疑問的時候,你可以回到這個部分進行查看。
我們用貝葉斯定理來解決一個問題。這将幫助你理解和想象你可以在哪裡應用它。我們舉一個例子,我相信幾乎所有人都在學校裡見過。
有3個分别标記為A,B和C的盒子:
這三個盒子是一樣的,被選中的概率是一樣的。假設選擇了一個紅色的球。那麼這個紅球從框A中取出的概率是多少?
設E表示一個紅色球被選中的事件,A、B、C表示各自的盒子被選中。我們需要計算條件概率P(A|E)。
我們有先驗概率P(A)= P(B)= P(C)= 1/3,因為所有盒子都有相同的被選取的概率。 P(E|A) =盒子A中紅色球的數量/盒子A中紅色球的總數= 2 / 5 同理,P(E|B) = 3 / 4, P(E|C) = 1 / 5 然後證據P (E) = P (E |) * P (A) P (E | B) * P (B) P (E | C) * P (C) = (2/5)* (1/3) (3/4)* (1/3) (1/5)* (1/3)= 0.45 因此,P (A | E) = P (E |) * P (A) / P (E) = (2/5) * (1/3) / 0.45 = 0.296
貝葉斯定理在現實世界中有很多應用。如果你不能馬上理解所有涉及的數學,也不要擔心。隻要了解它是如何工作的就足夠了。
貝葉斯決策理論是解決模式分類問題的一種統計方法。根據這一理論,假定類别的潛在概率分布是已知的。因此,我們得到了一個理想的貝葉斯分類器,所有其他分類器都根據它來判斷性能。
我們将讨論貝葉斯定理的三個主要應用:
讓我們詳細查看每個應用。
這可能是貝葉斯定理最著名的應用,甚至可能是最強大的。在機器學習中你會經常遇到樸素貝葉斯算法。
樸素貝葉斯分類器是基于貝葉斯定理的一組概率分類器。這些分類器的基本假設是,用于分類的所有功能都彼此獨立。那就是“樸素”這個名字的來曆,因為很少有我們獲得一套完全獨立的功能。
這些分類器的工作方式與我們在插圖中解決的方法完全相同,隻是假設了更多相互獨立的特性。
這裡,我們需要找到概率P(Y|X)其中X是一個n維随機變量,其組成随機變量X1, X2,…, X_n相互獨立:
類似的,因為條件獨立
代入(1),得到
最後,P(Y | X)最大的Y是我們的預測類。
這個名字很不言自明。判别函數用于将其參數“區分”到其相關類中。想要一個例子嗎?那就來一個!
如果你研究過機器學習中的分類問題,你可能會遇到支持向量機(SVM)。支持向量機算法通過尋找最佳分離訓練樣本的微分超平面來對向量進行分類。這個超平面可以是線性的,也可以是非線性的:
這些超平面是我們的決策平面,這個超平面的方程是我們的判别函數。
好了-現在讓我們正式讨論這個話題。
w1,w2,…..,w_c表示我們的數據向量X可以分類的c個類。然後,決策規則變為:
對于所有j≠i,如果g_i(X)> g_j(X),則确定w_i
這些函數gi(X) i = 1,2,…,稱為判别函數。這些函數将向量空間分割成c決策區域——R1, R2,…, Rc對應于每個c類。這些區域的邊界稱為決策面或邊界。
如果gi(X) = gj(X)是c判别函數中最大的值,那麼将向量X劃分為wi類和wj類是不明确的。因此,X位于一個判定邊界或曲面上。
查看下圖:
這是個很酷的概念,對吧?将二維向量空間分成R1和R2兩個決策區域,用兩個雙曲線将兩個決策區域分隔開。
注意,如果f(.)是一個單調遞增的函數,那麼任何函數f(g_i(X))也可以用作判别函數。對數函數是f(.)的常用選擇。
現在,考慮兩個類别的情況下使用類w ^ _1和W_2。“ 最小錯誤率分類 ”決策規則變為:
如果P(w_1|X) > P(w_2|X),則判定w_1,否則判定w_2 P(error|X) = min{P(w_1|X),P(w_2|X)}
P(w_i|X)是一個條件概率,可以用貝葉斯定理來計算。因此,我們可以根據可能性和先驗來重申決策規則:
如果P(X|w_1)*P(w_1) > P(X|w_2)*P(w_2),則判定w_1,否則判定w_2
請注意,分母上的“證據”隻是用于縮放,因此我們可以從決策規則中消除它。
因此,判别函數的一個明顯選擇是:
g_i(X) = P(X|w_i)*P(w_i) 或 g_i(X) = ln(P(X|w_i)) ln(P(w_i))
兩類情況一般可用一個判别函數進行分類。
g(X) = g_1(X) - g_2(X) = ln(P(X|w_1) / P(X|w_2)) ln(P(w_1) / P(w_2)) 判斷w_1,如果g(X) >為0 判斷w_2,如果g(X) < 0 如果g(X) = 0,則X位于決策面。
在上圖中,g(X)是二維向量X中的一個線性函數。然而,更複雜的決策邊界也是有可能的:
這是貝葉斯定理的第三個應用。我們将使用單變量高斯分布和一些數學知識來理解它。不要擔心它看起來很複雜——我已經把它分解成容易理解的術語。
你一定聽說過超級流行的IMDb Top 250。這是250部有史以來最受歡迎的電影。《肖申克的救贖》在榜單上排名第一,評分9.2/10。
你認為這些評級是如何計算的?IMDb使用的原始公式聲稱使用“真正的貝葉斯估計”。此後,這個公式發生了變化,沒有公開披露。下面是之前的公式:
W=加權評級
R=從1到10的電影平均(平均值)=(評級)
v=電影的投票數=(投票)
m=進入前250名所需的最低票數(目前為25,000)
C= 整個報告的平均投票數(目前為7.0)
最終評級W是R和C的加權平均值,分别用權重v和m表示。m是先驗估計。
我們通常沒有關于分類問題的概率性質的完整信息。相反,我們對情況有一個模糊的概念,以及一些訓練的例子。然後我們使用這些信息來設計一個分類器。
基本思想是潛在的概率分布具有一個已知形式。因此,我們可以使用參數向量Θ對其進行描述。例如,可以用Θ= [μ,σ²]描述高斯分布。
然後,我們需要估計這個向量。這通常通過兩種方式實現:
p (D |θ)= p (x1 |θ)* p (x2 |θ)* ....* p (xn |θ)=相對于樣本D集合的θ似然
我們可以将其非正式地寫為:
P(Θ|數據)= P(數據|Θ)* P(Θ)/ P(數據),其中數據表示訓練示例集
讓我來演示一下貝葉斯參數估計是如何工作的。這将進一步明确我們剛才提到的理論。
首先,讓p (X)是正态分布的均值μ和方差σ²,μ是唯一我們希望估計未知參數。然後:
p(X|Θ) = p(X|μ) ~ N(μ, σ²)
我們将在這裡簡化數學。因此, 讓先驗概率密度p(μ)也是正态分布與平均µ和方差σ²(這都是已知的)。
在此,将p(Θ| data)= p(μ| data)稱為繁殖密度,将p(Θ)= p(μ)稱為共轭先驗。
a是歸一化常數
由于樣本是相互獨立的,
帶入(2)
現在,我們把概率密度替換成我們一開始描述的那樣
由于exp()中的此參數是μ的二次方,因此它表示一個正常的密度。因此,如果我們有n個訓練示例,我們可以說p(μ| data)正态分布為均值μn和方差σn²,其中
以下是我的觀察:
貝葉斯定理的美麗和力量永不止息。由250多年前去世的僧侶給出的一個簡單概念已在當今在一些最著名的機器學習技術中使用。
更多幹貨内容陸續分享給大家,請持續關注我們吧!
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!