分布是用來描述事件(通常用随機變量X表示)發生規律的數學工具,比如X~N(78, 9)描述了某個考試科目考試成績的分布情況,服從均值為78,方差為9的正态分布。我們常用直方圖或概率密度曲線來展示分布特點(如下圖)。#尋找真知派#
圖1 考試成績分布圖(正态分布)
事件的分布類型有很多種,比如指數分布、t分布、泊松分布等,每種分布都對應于一個概率密度函數(連續随機變量)或概率質量函數(離散随機變量)。通過這個函數,我們就可以估算某個事件發生的概率(反之亦可)。這為我們認識問題、分析問題提供了強有力的工具。
圖2 指數分布
圖3 泊松分布
在所有的分布種類中,正态分布是一個很神奇的分布。大多數自然現象和社會事件都服從正态分布,比如身高、收入水平、智力水平等。正态分布的特點是分布曲線是左右對稱的,極端現象發生的概率小,而通常現象的發生率高。如圖1的成績分布,大多數學生的成績在70-85之間,極少數高分和低分。正态分布反映了“普通情況是大多數,極端情況是少數且不失偏頗(極大極小機會均等)”的客觀規律。有人将其譽為“上帝創造的公平機制”。
圖4 N(μ,σ2)正态分布的概率密度函數
另外,根據中心極限定理,任何分布,随着其自由度或樣本量的增大,其均值都會服從正态分布,也就是說正态分布是所有分布的終極形态。任何一種分布,通過數據變換(如對數化或Box-Cox變換),都可以轉化為正态分布,然後進一步求解。在統計分析和機器學習中,正态分布起着基礎性的關鍵作用,也就是說如果沒有正态分布,就沒有這些數據分析方法。
為什麼會這樣呢?因為正态分布最具普遍性,而且是最簡潔最容易計算的分布。其中心趨勢(均值、中位數、衆數)均相等,且整個分布僅需指定兩個參數——均值μ和方差σ2。
下面我們來看一個例子:
一個5000人的生活區,放置了45個水龍頭。假如在某一時刻1個人用水的概率是1%,(1)試分析發生排隊的可能性有多高?(2)至少要裝多少個水龍頭,才能以95%以上的概率保證不擁擠?
我們先來看第一個問題。
用水事件服從二項分布,即ζ~B(5000,0.01)。其均值μ=5000*0.01=50,方差σ2=49.5,标準差σ=7.04。 那麼出現排隊的概率就是
二項分布下的概率計算
但上述公式求解非常麻煩。我們可以根據德莫佛——拉普拉斯中心極限定理,将上述問題轉化為正态分布N(50,49.5),予以求解。
轉化為标準正态分布,進行概率計算
所以發生排隊的概率P(ζ > 45) = 1 − 0.2389 = 0.7611。用水出現擁擠是大概率事件,亟待改善。
現在我們再來看第二個問題,需要多少個水龍頭才能保證95%的可能性不排隊呢?即
我們可以将上式轉化為标準正态分布的形式
于是我們得到了
即
m>=61.6,即m=62。需要再增加17個水龍頭,便可保證有95%的可能性不排隊。#技術技能超級玩家#
@頭條号
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!