概率密度函數是概率論中的核心概念之一,用于描述連續型随機變量所服從的概率分布。在機器學習中,我們經常對樣本向量x的概率分布進行建模,往往是連續型随機變量。很多同學對于概率論中學習的這一抽象概念是模糊的。在今天的文章中,SIGAI将直觀的解釋概率密度函數的概念,幫你更深刻的理解它。
從随機事件說起
回憶我們在學習概率論時的經曆,随機事件是第一個核心的概念,它定義為可能發生也可能不發生的事件,因此是否發生具有随機性。例如,抛一枚硬币,可能正面朝上,也可能反面朝上,正面朝上或者反面朝上都是随機事件。擲骰子,1到6這6種點數都可能朝上,每種點數朝上,都是随機事件。
與每個随機事件a關聯的有一個概率值,它表示該事件發生的可能性:
p(a)
這個概率值必須在0到1之間,22即滿足下面的不等式約束:
0<= p(a)<=1
另外,對于一次實驗中所有可能出現的結果,即所有可能的随機事件,它們的概率之和必須為1:
這些随機事件不會同時發生,但必須有一件會發生。例如,對于抛硬币,不是正面朝上就是反面朝上,不會出現其他情況(這裡假設硬币抛出去後不會立着),因此有:
p(正面朝上) p(反面朝上)=1
很多時候,我們假設這些基本的随機事件發生的概率都是相等的,因此,如果有n個基本的随機事件,要使得它們發生的概率之和為1,則它們各自發生的概率都為:
對于抛硬币,正面朝上和反面朝上的概率各為1/2,對于擲骰子,每個點朝上的概率各為1/6。對于這種隻有有限種可能的情況,我們通過枚舉各種可能的情況,可以算出每個事件發生的概率。例如,如果我們要計算擲骰子出現1點或者2點的概率,隻需要将這兩點至少有一點出現的情況數,比上所有可能的情況數,就得到概率值:
上面的例子中,随機事件所有可能的情況隻有有限種,而且可以用整數對這些随機事件進行編号,如a1,a2,a3...。
然而,有有限就有無限,對于可能有無限種情況的随機事件,我們該如何計算它發生的概率?考慮一個簡單的問題,有一個長度和高度都為1的正方形,如果我們随機的扔一個點到這個正方形裡,這個點落在右上方也就是紅色區域裡的概率是多少?
你可能已經想到了,直接用紅色三角形的面積,比上整個正方形的面積,應該就是這個概率:
在這裡,随機點所落的位置坐标(x, y)的分量x和y都是[0, 1]區間内的實數,這有無限多種情況,不能再像之前那樣把所有的情況全部列出來,統計出這些情況的數量,然後和總情況數相除得到概率值。而是使用了“面積”這一指标來計算。看來,對這種類型的随機事件,我們得借助于“長度”,“面積”,“體積”這樣的積分值來計算。
如果用集合來描述這些随機事件的話,第一種情況是有限集,我們可以給集合裡的每個元素編号。第二種情況是無限集,元素的個數多到無法用整數下标來編号。
整數集與實數集
高中時我們學過集合的概念,并且知道整數集是z,實數集是R。對于有限集,可以統計集合中元素的數量即集合的基數(cardinal number,也稱為集合的勢cardinality)。對于無限集,元素的個數顯然是無窮大,但是,都是無窮大,能不能分個三六九等呢?
回憶微積分中的極限,對于下面的極限:
雖然當x趨向于正無窮的時候,x和exp(x)都是無窮大,但它們是有級别的,在exp(x)面前,x是小巫見老巫。
同樣的,對于整數集和實數集,也是有級别大小的。任意兩個整數之間,如1與2之間,都密密麻麻的分布着無窮多個實數,而且,隻要兩個實數不相等,不管它們之間有多靠近,如0.0000001和0.0000002,在它們之間還有無窮多個實數。在數軸上,整數是離散的,而實數則是連續的,密密麻麻的布滿整個數軸。因此,實數集的元素個數顯然比整數要高一個級别。
随機變量
變量是我們再熟悉不過的概念,它是指一個變化的量,可以取各種不同的值。随機變量可以看做是關聯了概率值的變量,即變量取每個值有一定的概率。例如,你買,最後的中獎金額x就是一個随機變量,它的取值有3種情況,以0.9的概率中0元,0.09的概率中100元,0.01的概率中1000元。變量的取值來自一個集合,可以是有限集,也可以是無限集。對于無限集,可以是離散的,也可以是連續的,前者對應于整數集,後者對應于實數集。
離散型随機變量
随機變量是取值有多種可能并且取每個值都有一個概率的變量。它分為離散型和連續型兩種,離散型随機變量的取值為有限個或者無限可列個(整數集是典型的無限可列),連續型随機變量的取值為無限不可列個(實數集是典型的無限不可列)。
描述離散型随機變量的概率分布的工具是概率分布表,它由随機變量取每個值的概率p(x = xi )= pi依次排列組成。它滿足:
下面是一個概率分布表的例子:
表2.2 一個随機變量的概率分布表
如果我們把前面例子中擲骰子的點數x看做是随機變量,則其取值為1-6之間的整數,取每個值的概率為1/6,這是典型的離散型随機變量。
連續型随機變量
把分布表推廣到無限情況,就可以得到連續型随機變量的概率密度函數。此時,随機變量取每個具體的值的概率為0,但在落在每一點處的概率是有相對大小的,描述這個概念的,就是概率密度函數。你可以把這個想象成一個實心物體,在每一點處質量為0,但是有密度,即有相對質量大小。
以上面在正方形内随機扔一個點的問題為例,此時,落點的坐标(x, y)就是連續型随機變量,落到任意一點(x, y)的概率值為0。因為這一個點的數量為1,而整個正方形内的點數為無窮大,二者之比值為0:
這實際上是均勻分布,即落在任何一點處的概率值相等。對于有些問題,落在各個不同的點處的概率是不相等的,就像一個實心物體,有些點處的密度大,有些點處的密度小,由此引入了概率密度函數的概念。
一個函數如果滿足如下條件,則可以稱為概率密度函數:
這可以看做是離散型随機變量的推廣,積分值為1對應于取各個值的概率之和為1。分布函數是概率密度函數的變上限積分,它定義為:
顯然這個函數是增函數,而且其最大值為1。分布函數的意義是随機變量的概率。注意,連續型随機變量取某一個值的概率為0,但是其取值落在某一個區間的值可以不為0:
雖然連續型随機變量取一個值的概率為0,但取各個不通過的值的概率還是有相對大小的,這個相對大小就是概率密度函數。這就好比一個物體,在任意一點處的質量為0,但在這一點有密度值,密度值衡量了在各點處的質量的相對大小。
從這個角度,我們可以将概率密度函數解釋為随機變量落在一個區間内的概率與這個區間大小的比值在區間大小趨向于0時的極限:
這個過程如下圖所示:
還是以上面的正方形為例,如果要計算随機點(x, y)都落在區間[0, 0.5]内的概率,可以這樣計算:
這個面積,就是積分值,對應于分布函數。最常見的連續型概率分布是正态分布,也稱為高斯分布。它的概率密度函數為:
其中μ和σ2分别為均值和方差。現實世界中的很多數據,例如人的身高、體重、壽命等都近似服從正态分布。另外一種常用的分布是均勻分布,如果随機變量x服從區間[a,b]内的均勻分布,則其概率密度函數為:
在程序設計和機器學習中,這兩種分布是最為常見的。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!