編輯導語:做過數據分析的人,想必對貝葉斯模型都不會陌生。貝葉斯預測模型是運用貝葉斯統計進行的一種預測,不同于一般的統計方法,其不僅利用模型信息和數據信息,而且充分利用先驗信息。通過實證分析的方法,将貝葉斯預測模型與普通回歸預測模型的預測結果進行比較,結果表明貝葉斯預測模型具有明顯的優越性。
說到貝葉斯模型,就算是不搞數據分析的都會有所耳聞,因為它的應用範圍實在是太廣泛了。
大數據、機器學習、數據挖掘、數據分析等領域幾乎都能找到貝葉斯模型的影子,在疾病診斷、金融投資、日常生活中也都會用到。
貝葉斯公式不僅可以幫助人們确定導緻某一事件發生的最可能的原因,而且在數量上刻畫了随着新信息的加入,人們對一個事物的認識如何從先驗概率過渡到後驗概率。
要了解貝葉斯,我們先來看看條件概率。
一、條件概率條件概率是指事件A在事件B發生的條件下發生的概率,條件概率表示為:P(A|B)。
來看下面這個例子:
假設現在有一個裝了7個石塊的罐子,其中4塊是紅色的,3塊是白色的,如圖:
問題1:如果從罐子中随機取出一塊石頭,那麼是白色的可能性是多少?
回答1:由于取石頭有7種可能,其中3塊是白色,所以取出白色石頭的概率為3/7。
問題2:取出紅色的概率是多少?
回答2:很顯然,答案是4/7。
我們用P(white)來表示取到白色石頭的概率,用P(red)來表示取到紅色石頭的概率,那麼:P(white)=3/7,P(red)=4/7。
很簡單,對吧?
問題來了:現在,我們把這7塊石頭放到兩個桶中,上述概率該如何計算呢?
問題分析:要計算P(white)或者P(red),事先得知道石頭所在桶的信息會不會改變結果?
假定計算的是從B桶取到白色石頭的概率,這個概率可以記作P(white|B),我們稱之為“在已知石頭出自B桶的條件下,取出白色石頭的概率”,這就是條件概率。
從上圖可以看出P(white|A)=2/4,P(white|B)=1/3,依然很簡單。
條件概率的計算公式如下:
P(white|B)=P(white and B)/P(B)
我們來驗證下上述公式:
- P(white and B)=球是白色且球是從B桶中取到的=1/7;
- P(B)=從B桶中取到球的概率=3/7;
- P(white|B)=P(white and B)/P(B)=(1/7)/(3/7)=1/3;
為了方便起見,我們将white替換為A,條件概率可以表示為P(A|B)=P(A and B)/P(B)。
二、貝葉斯公式知道了條件概率,現在,我們來推算貝葉斯公式:
1. 第一步
條件概率公式兩邊都乘以P(B),可以得到:
P(A and B)=P(A|B)*P(B)
這個公式表示,條件A 和 B同時發生的概率等于B條件下A事件發生的概率乘以B事件發生的概率。
2. 第二步
順序調換。假設條件A 和條件B是兩個獨立的事件,所以我們可以将上述公式順序調換,即:
P(A and B)=P(B and A)=P(B|A)*P(A)
這個公式表示,條件A 和 B同時發生的概率等于B條件下A事件發生的概率乘以B事件發生的概率。
3. 第三步
重新代入條件概率公式:
P(A|B)=P(A and B)/P(B)
代入第二步的公式:
P(A and B)=P(B|A)P(A)
可以得到:
P(A|B)=P(B|A)P(A)/P(B)
貝葉斯公式告訴我們如何交換條件概率的條件與結果,即如果已知P(B|A),要求P(A|B),那麼可以使用上述計算方法。
上述公式中,每個概率又有不同的說法:
三、貝葉斯公式的應用
- P(A)被稱為先驗概率;
- P(B|A)被稱為後驗概率;
- P(B)被稱為全概率。
以下摘一段 wikipedia 上對貝葉斯的簡介:
所謂的貝葉斯方法源于他生前為解決一個“逆概”問題寫的一篇文章,而這篇文章是在他死後才由他的一位朋友發表出來的。
在貝葉斯寫這篇文章之前,人們已經能夠計算“正向概率”,如“假設袋子裡面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大”。
而一個自然而然的問題是反過來:“如果我們事先并不知道袋子裡面黑白球的比例,而是閉着眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顔色之後,那麼我們可以就此對袋子裡面的黑白球的比例作出什麼樣的推測”。
這個問題,就是所謂的逆概問題。
貝葉斯是機器學習的核心方法之一。
這背後的深刻原因在于,現實世界本身就是不确定的,人類的觀察能力是有局限性的。
沿用剛才那個袋子裡面取球的比方,我們往往隻能知道從裡面取出來的球是什麼顔色,而并不能直接看到袋子裡面實際的情況。
這個時候,我們就需要提供一個猜測(hypothesis)。所謂猜測,當然就是不确定的,但也絕對不是兩眼一抹黑瞎蒙——具體地說,我們需要做兩件事情:
以病人的分類為例,某個醫院早上收了六個門診病人,如下表:
現在又來了第七個病人,是一個打噴嚏的建築工人,請問他患上感冒的概率有多大?
根據貝葉斯定理:
可得:
假定”打噴嚏”和”建築工人”這兩個特征是獨立的,因此,上面的等式就變成了:
這是可以計算的。
因此,這個打噴嚏的建築工人,有66%的概率是得了感冒;同理,可以計算這個病人患上過敏或腦震蕩的概率,比較這幾個概率,就可以知道他最可能得什麼病。
這就是貝葉斯分類器的基本方法:在統計資料的基礎上,依據某些特征,計算各個類别的概率,從而實現分類。
本文由 @CARRIE 原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!