今天是概率統計專題的第5篇文章,這篇文章的出現意味着高等數學專題我們已經告一段落了。高數當中剩下的内容還有很多,比如多重積分、微分方程求解等等内容。但對于算法領域來說,基本的微積分已經基本足夠了,所以我們就不再繼續往下延伸,如果以後有相關的内容涉及,我們再來開文章單講。
我們這篇文章的内容關于統計學中的泊松分布。
泊松分布在概率統計當中非常重要,可以很方便地用來計算一些比較難以計算的概率。很多書上會說,泊松分布的本質還是二項分布,泊松分布隻是用來簡化二項分布計算的。從概念上來說,這的确是對的,但是對于我們初學者,很難完全理解到其中的精髓。
所以讓我們來舉個栗子,來通俗地理解一下。
假設我們有一顆栗子樹,有時候因為風或者是小動物活動的關系,樹上可能會掉下栗子來,樹上掉栗子顯然是一棵偶然事件,并且發生的概率很低,那麼我們怎麼求它的概率分布呢?泊松分布解決的就是這樣一個問題。
好像沒有一個模型可以直接來刻畫這個問題,必須要經過一些轉化。
其實我們可以将事件切分,将這個問題轉化成二項分布問題。
比如我們把一天的時間切分成了若幹份,這樣對于每一份時間來說,是否會有栗子掉下來,就是一個是否會發生的事件。于是這就成了一個二項分布問題。理論上來說不會有兩顆栗子掉下的時間完全一樣,所以隻要我們将時間切分得足夠細,就可以保證一段時間之中最多隻會掉下一個栗子(否則就不滿足二項分布)。
假設我們把一天的時間切分成了n份,我們想知道一天當中會有k個栗子掉下的概率,根據二項分布的公式,這個概率就是:
到這裡,我們往前邁出了堅實的一步,寫出了概率的表達式。
我們雖然有了式子,但是好像沒什麼用,因為我們隻知道p是單位時間内有栗子掉下的概率,我們怎麼知道這個概率是多大呢?難道還真的去測量嗎?
要解決這個問題,還得回到二項分布。我們可以利用二項分布求一下每天掉下栗子數量的期望,顯然對于每一個單位時間而言,發生栗子掉落的概率是p,所以整體的期望是:
我們令這個值是 λ,那麼根據這個式子,我們可以表達出p了。
我們把這個p的式子帶入原式,可以得到:
前面說了,為了滿足二項分布,我們需要讓單位時間盡量小,防止會有同一時刻掉下兩個栗子的情況發生。所以這個n應該越大越好,我們可以用上之前學過的極限,讓n趨向于無窮,所以這個問題就變成了一個求極限的問題。
我們來算一下這個極限:
我們把這個極限拆分開來看,其中:
所以,我們代入,可以得到:
這個就是泊松分布的概率密度函數了,也就是說在一天當中掉下k個例子的概率就是
也就是說泊松分布是我們将時間無限切分,然後套用二項分布利用數學極限推導出來的結果。本質上來說,它的内核仍然是二項分布。使用泊松分布的原因是,當n很大,p很小的時候,我們使用二項分布計算會非常困難,因為使用乘方計算出來的值會非常巨大,這個時候,我們使用泊松分布去逼近這個概率就很方便了。
我們根據推導出來的結果,感覺隻要是n很大,并且p很小的場景都可以使用泊松分布。但是這畢竟隻是一個感性的認知,在統計學上對于這個問題也是有嚴謹定義的。我們來看一下嚴謹的使用條件的限制,大概是這麼三條。
最後,我們看一道書上的例題,實際感受一下泊松分布的應用。假設我們有一批零件,它的次品率是0.1%,也就是千分之一。請問我們生産一千個産品當中至少有兩件次品的概率?
這道題應該很簡單,要求兩件及以上次品的概率,我們隻需要計算出隻有零件和一件次品的概率,然後用1減去它們即可。我們首先根據n和p算出 λ:
我們帶入泊松分布的公式:
如果我們要用二項分布來計算,那麼就需要計算0.999的一千次方了,這顯然是非常複雜的,這也是泊松分布的意義。
今天的文章就到這裡,原創不易,關注我,獲取更多優質文章
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!