tft每日頭條

 > 生活

 > 概率統計教程

概率統計教程

生活 更新时间:2024-09-14 08:29:41

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)1

新生兒體重的PMF

前面我們說到了概率質量函數(PMF),對于PMF适用于變量值數量較少的情況,但是随着值得數量的增加,每個值對應的概率會變得越來越小,随機噪音就會變大。

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)2

新生兒體重PMF

上圖的分布大緻接近正态分布的鐘形,靠近均值的值較多,兩端的值較少。但是我們很難對這個圖形中的某些部分進行解釋,圖中有很多的"尖峰"和“低谷”,而且兩個分布有明顯差别。從圖中我們很難分辨哪些特征是有意義的,而且也不容易看出整體模式。如那個均值分布的更高。

所以為了解決上面的問題,我們把數據進行分區,即将值的範圍劃分為互不重疊的區間,然後計算每個區間中值的數目。分區是很實用的方法,但選擇區間大小并不容易。如果區間選擇太大,在消除噪音的同時,也可能會把有用的信息消除。

所以為了避免上述的問題,我們提出了使用累積分布函數(cumulative distribution function,CDF)

為了了解CDF,首先先來理解什麼叫做百分位數,比如說你如果參加标準化考試,得到的成績可能是原始成績和百分位秩(percentile rank),在标準化考試中,百分位秩是比你成績低(或相同)的人的比例,如果你位于90%,那麼意味着你的成績高于或等于90%參加考試的人。

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)3

百分位秩的python描述

從一個值計算其百分位秩很容易計算,單反過來就很難,如果給定一個百分位秩,要找其對應的值,可以先對值進行排序,然後進行查找。

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)4

百分位數python描述

理解了百分位秩和百分位數後,接下來就可以進一步讨論累計分布函數,累積分布函數是将一個值映射到百分位秩。CDF是x的函數,其中x是可能出現在分布中的任意值,要獲得某個特定值x的CDF(x),我們要計算出小于或等于x的值在此分布中所占的比例。

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)5

CDF的python描述

這個函數和百分位秩的定義幾乎一模一樣,但是這個值得結果是0到1的概率,而百分位秩的結果是0到100的百分位秩,看下圖:。

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)6

我們可以計算任意值x的累積分布函數,而不僅限于樣本中出現的值。如果x小于樣本中的值,那麼CDF(x)為0,如果x大于樣本中的最大值,那麼CDF(x)=1, 累積分布函數是一個階梯函數。

接下來,我們來看一下怎麼表示CDF,下面這個圖紙全國家庭增長調查中妊娠期時間分布的CDF。

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)7

妊娠周期

其實對于CDF的解讀,從尋找百分位開始,例如,從圖中我們可以看出,大約10%的妊娠期不超過35周,大約90%不超過41周。CDF還展示了分布的情況,分布中經常出現的值在CDF中顯示為陡峭或豎直的折線,我們可以明顯看出位于39周的衆數。小于30周的很少,所以30周左側較為平緩。

我們再看一組例子,關于CDF曲線的比較:

概率統計教程(統計思維程序員數學之概率統計-累計分布函數)8

第一胎和其他情況下新生兒體重的CDF

上圖清晰的展示了分布的形狀和分布之間的差異,從圖中可以看出,第一胎新生兒普遍體重較輕,而且大于均值是差異更為明顯。

下面介紹一些百分位數相關的統計量,

  • 第50百分位是将一個分布劃分為兩部分的值,也稱為中位數(median),和均值一樣,中位數也是對分布集中的趨勢的度量。
  • 四分位距(interquartile range,IQR),用于度量一個分布的展布,四分位距是第75百分位和第25百分位的差值。

以上是今天的全部内容,請多多支持!!!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved