理解概率概念對于機器學習工程師或數據科學專業人員來說是必須的。許多數據科學挑戰性問題的解決方案本質上是從概率視角解決的。因此,更好地理解概率将有助于更有效地理解和實現這些算法。
每當你閱讀任何概率書、博客或論文時,大多數時候你會發現這些書中的講解太過理論化。據研究,65%的人是視覺學習者。以圖形方式理解定理和證明是一種可視化信息和數據的有效方式,而且不僅以可視方式呈現數據已被證明長期有效。因此,本文以可視方式透徹展示、講解概率概念。
本文安排如下:
根據維基百科, 條件概率是一個事件概率依賴于另一個事件(已然發生)的度量,假設(通過假設、推定、斷言或證據)另一個事件發生的概率,表示為P(A / B)。
現在讓我們嘗試通過一種新的方法在視覺上解釋它。
條件概率圖
讓我們假設我們在START的時間線内開始觀察。P(A)表示在我們開始觀察時間線之後發生事件A的概率。在A之後還有可能發生另一個事件B,并且其幾率由P(B | A)表示。
由于兩個事件都是連續發生的,所以整個時間線出現的概率(即A和B都發生,B發生在A之後)是
P(A)·P(B | A)
由于我們正在考慮A和B都發生的概率,它也可以解釋為P(A∩B)
交叉規則(A∩B)
P(A∩B)= P(A)·P(B | A)
這裡P(B | A)被稱為條件概率,因此可以簡化為
P(B | A)= P(A∩B)/ P(A),假設P(A)≠0
請注意,上述情況的前提是,事件序列發生且彼此相互依賴。也有可能A不影響B,如果是,則這些事件彼此獨立并稱為獨立事件。
獨立事件
在獨立事件的情況下,A發生的幾率不會影響B發生的幾率。
P(B | A)= P(B)
總概率定律總概率定律将計算分為不同的部分。它用于計算事件的概率,該事件與前一事件之前發生的兩個或多個事件相關。
太抽象了?讓我們嘗試一種視覺方法
總概率圖
設B是可以在任何" n "個事件(A1,A2,A3,...... ...... An)之後發生的事件。如上所定義P(Ai∩B)= P(Ai)⋅P(B | Ai)∀i∈[1,n]
事件A1,A2,A3,...... A是相互排斥的,不能同時發生,我們可以通過A1或A2或A3或......或An到達B. 因此,用和的表達如下:
P(B)= P(A1∩B) P(A2∩B) P(A3∩B) ...... P(An∩B)
進而:
P(B) = P(A1)·P(B | A1) P(A2)·P(B | A2) ...... P(An)·P(B | An)
上述表達式稱為總概率規則或總概率定律。
貝葉斯定理貝葉斯定理是一種基于某些概率的先驗知識來預測起源或來源的方法
我們已經知道P(B | A)= P(A∩B)/ P(A),假設兩個相關事件的P(A)≠0。有沒有想過P(A | B)=?,從語義上說它沒有任何意義,因為B發生在A之後,時間線無法逆轉(即我們不能從B向上行進到START)
數學上我們根據條件概率知道
P(A | B)= P(B∩A)/ P(B),假設P(B)≠0
P(A | B)= P(A∩B)/ P(B),P(A∩B)= P(B∩A)
我們知道
P(A∩B)= P(B | A)·P(A)
代入:
P(A | B)= P(B | A)·P(A)/ P(B)
這是貝葉斯定理的最簡單形式。
現在,假設B依賴于它之前發生的多個事件。将Total Probability Rule應用于上面的表達式,我們得到
P(Ai | B)= P(B | Ai)·P(Ai)/(P(A1)·P(B | A1) ...... P(An)·P(B | An))
這是我們通常在各種實際應用中使用的貝葉斯定理的形式。
貝葉斯定理的應用由于其預測性,我們使用貝葉斯定理推導出樸素貝葉斯,這是一種流行的機器學習分類器
如上所述,貝葉斯定理基于可能與事件相關的因素的先驗知識來定義事件的概率。現在,基本上對于數據點xi,我們必須預測當前輸出Y所屬的類。假設輸出的總類數為'j'。然後, P(y = c1 | x = xi) - - >告訴我們,對于給定的輸入xi,y是c1的概率是多少。 P(y = c2 | x = xi) - - >告訴我們,對于給定的輸入xi,y是c2的概率是多少。
在所有這些概率計算中,y屬于具有最大概率的特定類。
我們将使用貝葉斯定理進行這些概率計算。
這給出了輸出屬于數據點(xi)的當前值的第j類的概率。 因為對于所有類1,2,...,j,分母将具有相同的值,所以我們可以在進行比較時忽略它。因此,我們獲得了計算概率的公式。
為什麼它被稱為樸素??
我們之所以稱之為樸素,是因為我們做了一個簡單的假設,即類中特定特征的存在與任何其他特征的存在無關,這意味着每個特征彼此獨立。
概率P(y = cj)的估計可以直接從訓練數據點的數量來計算。 假設有100個訓練點和3個輸出類,10個屬于c1類,40個屬于C2類,其餘50個屬于C3類。 類概率的估計值将是:
P(y = C1)= 10/100 = 0.1
P(y = C2)= 40/100 = 0.4
P(y = C3)= 50/100 = 0.5
為了對P(x = xi | y = cj)進行概率估計,樸素貝葉斯分類算法假設所有特征都是獨立的。因此,我們可以通過單獨乘以為所有這些特征獲得的概率(假設特征是獨立的)來計算這個,用于第j類的輸出。
P(x = xi | y = cj)= P(x = xi(1)| y = cj)P(x = xi(2)| y = cj).... P(X = XI(N)| Y = CJ)
這裡,xi(1)表示第i個數據點的第1特征的值,x = xi(n)表示第i個數據點的第n個特征的值。
在接受了樸素假設之後,我們可以很容易地計算出單個特征概率,然後通過簡單地乘以結果來計算最終概率P'。
使用上面的公式,我們可以計算輸出y對于給定的第i個數據點屬于第j個類的概率。
這是貝葉斯定理在實際應用中的主要應用。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!