tft每日頭條

 > 科技

 > 非正态分布數據分析

非正态分布數據分析

科技 更新时间:2024-07-31 18:59:30

分布是用來描述事件(通常用随機變量X表示)發生規律的數學工具,比如X~N(78, 9)描述了某個考試科目考試成績的分布情況,服從均值為78,方差為9的正态分布。我們常用直方圖或概率密度曲線來展示分布特點(如下圖)。#尋找真知派#

非正态分布數據分析(數據分析基礎1)1

圖1 考試成績分布圖(正态分布)

事件的分布類型有很多種,比如指數分布、t分布、泊松分布等,每種分布都對應于一個概率密度函數(連續随機變量)或概率質量函數(離散随機變量)。通過這個函數,我們就可以估算某個事件發生的概率(反之亦可)。這為我們認識問題、分析問題提供了強有力的工具。

非正态分布數據分析(數據分析基礎1)2

圖2 指數分布

非正态分布數據分析(數據分析基礎1)3

圖3 泊松分布

在所有的分布種類中,正态分布是一個很神奇的分布。大多數自然現象和社會事件都服從正态分布,比如身高、收入水平、智力水平等。正态分布的特點是分布曲線是左右對稱的,極端現象發生的概率小,而通常現象的發生率高。如圖1的成績分布,大多數學生的成績在70-85之間,極少數高分和低分。正态分布反映了“普通情況是大多數,極端情況是少數且不失偏頗(極大極小機會均等)”的客觀規律。有人将其譽為“上帝創造的公平機制”。

非正态分布數據分析(數據分析基礎1)4

圖4 N(μ,σ2)正态分布的概率密度函數

另外,根據中心極限定理,任何分布,随着其自由度或樣本量的增大,其均值都會服從正态分布,也就是說正态分布是所有分布的終極形态。任何一種分布,通過數據變換(如對數化或Box-Cox變換),都可以轉化為正态分布,然後進一步求解。在統計分析和機器學習中,正态分布起着基礎性的關鍵作用,也就是說如果沒有正态分布,就沒有這些數據分析方法。

為什麼會這樣呢?因為正态分布最具普遍性,而且是最簡潔最容易計算的分布。其中心趨勢(均值、中位數、衆數)均相等,且整個分布僅需指定兩個參數——均值μ和方差σ2。

下面我們來看一個例子:

一個5000人的生活區,放置了45個水龍頭。假如在某一時刻1個人用水的概率是1%,(1)試分析發生排隊的可能性有多高?(2)至少要裝多少個水龍頭,才能以95%以上的概率保證不擁擠?

我們先來看第一個問題。

用水事件服從二項分布,即ζ~B(5000,0.01)。其均值μ=5000*0.01=50,方差σ2=49.5,标準差σ=7.04。 那麼出現排隊的概率就是

非正态分布數據分析(數據分析基礎1)5

二項分布下的概率計算

但上述公式求解非常麻煩。我們可以根據德莫佛——拉普拉斯中心極限定理,将上述問題轉化為正态分布N(50,49.5),予以求解。

非正态分布數據分析(數據分析基礎1)6

轉化為标準正态分布,進行概率計算

所以發生排隊的概率P(ζ > 45) = 1 − 0.2389 = 0.7611。用水出現擁擠是大概率事件,亟待改善。

現在我們再來看第二個問題,需要多少個水龍頭才能保證95%的可能性不排隊呢?即

非正态分布數據分析(數據分析基礎1)7

我們可以将上式轉化為标準正态分布的形式

非正态分布數據分析(數據分析基礎1)8

于是我們得到了

非正态分布數據分析(數據分析基礎1)9

非正态分布數據分析(數據分析基礎1)10

m>=61.6,即m=62。需要再增加17個水龍頭,便可保證有95%的可能性不排隊。#技術技能超級玩家#

@頭條号

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved