導讀:本文将從條件概率入手,介紹事件之間獨立性的相關概念,然後引出全概率公式和貝葉斯公式的基本内容,帶領讀者通過概率的視角初步認知現實世界。
作者:張雨萌
來源:華章科技
01 從概率到條件概率
對于概率,相信大家都不會感到陌生,比如擲骰子這個最簡單的概率場景,擲出的點數為5的概率是多少?我們會毫不猶豫地說出答案:概率為1/6。
這個問題太簡單了,如果我們隻滿足于此,就沒有什麼研究意義了。接下來我給這個問題增加一個限定條件:已知擲出骰子的點數是奇數,再求抛擲點數為5的概率是多少。發現了沒有,這個問題中我們沒有直接問投擲出5這個事件的概率,而是增加了一個已知點數為奇數的前提。
生活中這類場景更多見,我們一般不會直接去推斷一個事件發生的可能性,因為這樣做的實際意義并不大,而且也不容易推斷出結果。一般而言事件是不會孤立發生的,都會伴随其他一些條件。比如,我問你下雨的概率是多少。你可能會一頭霧水,什麼地點?什麼時間?當日雲層的厚度是多少?推斷的前提條件都沒有,是無法給出一個有意義、有價值的推斷結果的。
因此,在實際應用中,我們更關心條件概率,也就是在給定部分信息的基礎上,再對所關注事件的概率進行推斷。這些給定的信息就是事件的附加條件,是我們研究時所關注的重點。
02 條件概率的具體描述
我們先來具體描述一下條件概率:假設知道給定事件B已經發生,在此基礎上希望知道另一個事件A發生的可能性。此時我們就需要構造條件概率,先顧及事件B已經發生的信息,然後再求出事件A發生的概率。
這個條件概率描述的就是在給定事件B發生的情況下,事件A發生的概率,我們把它記作P(A|B)。
回到擲骰子的問題:在擲出奇數點數骰子的前提下,擲出點數5的概率是多少?奇數點數一共有{1,3,5} 3種,其中出現5的概率是1/3。很明顯,和單獨問擲出點數5的概率計算結果是不同的。
下面我們來抽象一下條件概率的應用場景。
回到最簡單、最容易理解的古典概率模式進行分析:假定一個實驗有N個可能結果,事件A和事件B分别包含M1個和M2個結果,M12表示公共結果,也就是同時發生A事件和B事件,即事件A∩B所包含的實驗結果數。
通過圖1-1再來形象地描述一下上述場景。
▲圖1-1 事件和事件同時發生的場景
事件A和事件B單獨發生的概率分别是多少?讀者肯定能脫口而出,分别是M1/N和M2/N。那麼再考慮條件概率:在事件發生的前提條件下,事件發生的概率是多少?
此時,我們的考慮範圍由最開始的N個全部可能結果,縮小到現在的M2個結果,即事件B發生的結果範圍,而這其中隻有M12個結果對應事件A的發生,不難計算出條件概率P(A|B)=M12/M2。
03 條件概率的表達式分析為了更加深入地挖掘這裡面的内涵,我們進一步對條件概率的表達式P(A|B)=M12/M2進行展開,式子上下部分同時除以全部可能的結果數:
由此,我們得到了條件概率的一般定義:P(A|B)=P(AB)/P(B)。
04 兩個事件的獨立性我們進一步分析上面的例子,事件A的無條件概率P(A)與它在給定事件B發生下的條件概率P(A|B)顯然是不同的P(A|B)≠P(A),即,而這也是非常普遍的一種情況,無條件概率和條件概率的概率值一般都存在差異。
其實,這種情況也反映了兩個事件之間存在着一些關聯,假如滿足P(A|B)>P(A),則可以說事件B的發生使得事件A發生的可能性增大了,即事件B促進了事件A的發生。
但是P(A)=P(A|B)的情況也是存在的,而且這是一種非常重要的情況,它意味着事件B的發生與否對事件A是否發生毫無影響。這時,我們就稱A和B這兩個事件獨立,并且由條件概率的定義式進行轉換可以得到:
實際上,我們使用以上表達式刻畫事件獨立性,比單純使用P(A)=P(A|B)要更好一些,因為P(AB)=P(A)P(B)不受概率P(B)是否為0的因素制約。
由此可知,如果A和B這兩個事件滿足P(AB)=P(A)P(B),那麼稱事件A和事件B獨立。
05 從條件概率到全概率公式我們假設B1,B2,B3,...,Bn為有限個或無限可數個事件,它們之間兩兩互斥且在每次實驗中至少發生其中一個,如圖1-2所示。
▲圖1-2 事件兩兩互斥且每次實驗至少發生其中一個
用表達式描述:
現在我們引入另一個事件A,如圖1-3所示。
▲圖1-3 在實驗中引入事件A
由圖1-3可知,因為Ω是一個必然事件(也就是整個事件的全集),因此有等式P(A)=P(AΩ)成立,進一步進行推導有:
P(A)=P(AΩ)=P(AB1 AB2 AB3 ... ABn)。因為事件Bi、Bj兩兩互斥,那麼顯然AB1,AB2,AB3,...,ABn也兩兩互斥,于是就有:
P(A)=P(AB1) P(AB2) P(AB3) ... P(ABn)
再将條件概率公式P(ABi)=P(Bi)P(A|Bi)代入:
P(A)=P(B1)P(A|B1) P(B2)P(A|B2) ... P(Bn)P(A|Bn)
這就是我們最終得到的全概率公式,“全”字的意義在于:全部的概率P(A)被分解成了多個部分概率之和。
我們再回過頭來看全概率公式的表達式,可以發現:事件A的概率P(A)應該處于最小的P(A|Bi)和最大的P(A|Bj)之間,它不是所有條件概率P(A|Bk)的算術平均,因為事件被使用的機會權重(即P(Bi))各不相同,因此全概率P(A)就是各條件概率P(A|Bk)以P(Bk)為權重的加權平均值。
06 聚焦貝葉斯公式了解了全概率公式之後,我們進一步處理條件概率的表達式,得到如下等式:
這就是大名鼎鼎的貝葉斯公式。
千萬不要覺得它平淡無奇,隻是數學公式的推導和羅列。實際上,這個公式裡包含了全概率公式、條件概率、貝葉斯準則。我們來挖掘一下裡面所蘊藏的重要内涵。
貝葉斯公式将條件概率P(A|B)和條件概率P(B|A)緊密地聯系起來,其最根本的數學基礎就是P(A|B)P(B)=P(B|A)P(A),它們都等于P(AB)。
那這裡面具體的深刻内涵是什麼呢?我們接着往下看。
07 本質内涵:由因到果,由果推因在現實中,我們可以把事件A看作結果,把事件B1,B2,...,Bn看作導緻這個結果的各種原因。那麼,我們所介紹的全概率公式
P(A)=P(B1)P(A|B1) P(B2)P(A|B2) ... P(Bn)P(A|Bn)
就是由各種原因推理出結果事件發生的概率,是由因到果。
但是,實際上還存在着一類重要的應用場景:我們在日常生活中常常是觀察到某種現象,然後去反推造成這種現象的各種原因的概率。簡單來說,就是由果推因。
由貝葉斯公式
最終求得的條件概率P(Bi|A),就是在觀察到結果事件A已經發生的情況下,推斷結果事件A是由原因Bi造成的概率的大小,以支撐我們後續的判斷。
概率P(Bi)被稱為先驗概率,指的是在沒有别的前提信息情況下的概率值,這個值一般需要借助我們的經驗去估計。而條件概率P(Bi|A)被稱作後驗概率,它代表了在獲得“結果事件A發生”這個信息之後原因Bi出現的概率,可以說後驗概率是先驗概率在獲取了新信息之後的一種修正。
本文從概率出發,到條件概率,再到全概率公式,最終聚焦到貝葉斯公式,主要是從概念層面進行梳理,幫助讀者迅速形成以條件概率為基石的認知視角。條件概率的重要性不言而喻,它将貫穿整個概率統計課程體系。
關于作者:張雨萌,人工智能技術專家,畢業于清華大學計算機系,現就職于中國艦船研究設計中心,長期從事人工智能領域相關研究工作。谙熟機器學習算法應用及其背後的數學理論基礎。目前已出版多部機器學習數學基礎類暢銷書籍,并入選京東推薦排行榜,廣受讀者好評。
本文摘編自《機器學習中的概率統計 Python語言描述》,經出版方授權發布。
延伸閱讀《機器學習中的概率統計》
推薦語:資深AI技術專家撰寫,清華大學畢業,GitChat暢銷專欄升級,系統講解機器學習中概率統計核心知識和計算技巧。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!