如何通俗理解随機變量函數的分布-tft每日頭條

如何通俗理解随機變量函數的分布

生活更新时间:2026-01-17 00:42:42

“你的輸入變量/特征必須是高斯分布的”是一些機器學習模型(特别是線性模型)的要求。但我怎麼知道變量的分布是高斯分布呢。本文重點介紹了保證變量分布為高斯分布的幾種方法。

本文假定讀者對高斯/正态分布有一定的了解。

在本文中，我們将使用來自Scikit-Learn的衆所周知的Iris數據。

首先，讓我們導入所需的包。

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_iris #Converting the data from an array to a data frame X = pd.DataFrame(load_iris()["data"]).copy()

輸入特性/變量為[0,1,2,3]

方法一:直方圖法

這是第一個和一個簡單的方法，用來得到一個變量的分布。讓我們畫出Iris 數據變量的直方圖。

X.hist(figsize=(10,10))

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）1

上面的直方圖顯示變量0和1接近于高斯分布(1似乎是最接近的)。而3和4看起來完全不是高斯的。需要注意的是，直方圖可能會産生誤導（具體可參考我們以前的文章）。

方法二:密度圖(KDE圖)

密度圖是繪制變量分布的另一種方法。它們與直方圖類似，但與直方圖相比，它們能更清楚地顯示變量的分布情況。

fig,ax = plt.subplots(2,2,figsize=(10,10)) row = col = 0 for n,c in enumerate(X.columns): if (n%2 == 0) & (n > 0): row = 1 col = 0 X[c].plot(kind="kde",ax=ax[row,col]) ax[row,col].set_title(c) col = 1

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）2

現在我可以看到變量0和1比在直方圖中顯示的更高斯化。變量2和3看起來也有點接近高斯分布，除了兩個峰值。

方法三:Q-Q圖

Q-Q圖根據指定的分布繪制數據。在這種情況下，指定的分布将是“norm”。

在Python中，Q-Q plot可以使用' scipy '的' probplot '函數繪制。如下所示。

from scipy.stats import probplotfor i in X.columns: probplot(x=X[i],dist='norm',plot=plt) plt.title(i) plt.show()

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）3

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）4

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）5

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）6

從上面的Q-Q圖可以看出，變量0和1緊密地跟随紅線(正态/高斯分布)。而變量2和3在一些地方遠離紅線，這使它們遠離了高斯分布。Q-Q圖比直方圖和密度圖更可靠。

方法四:Shapiro-Wilk檢驗

夏皮羅-威爾克(Shapiro-Wilk)檢驗是一項針對正态性的統計檢驗。這是用于檢驗正态性的定量方法。 Shapiro-Wilk檢驗通過檢驗零假設：即數據是從正态分布中提取的。來确定是否是正态分布

在Python中，可以使用' scipy '的' shapiro '函數執行shapiro - wilk檢驗。如下所示。

from scipy.stats import shapiro for i in X.columns: print(f'{i}: {"Not Gaussian" if shapiro(X[i])[1]<0.05 else "Gaussian"} {shapiro(X[i])}')

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）7

從上面的結果可以看出，隻有變量1是高斯型的。

Shapiro-Wilk檢驗的一個缺點是，一旦樣本大小（或變量的長度）超過5,000，就不可靠。

方法五：Kolmogorov-Smirnov檢驗

Kolmogorov-Smirnov檢驗是一項拟合優度的統計檢驗。此測試比較兩個分布（在這種情況下，兩個分布之一是高斯分布）。此檢驗的零假設是，兩個分布相同（或），兩個分布之間沒有差異。

在Python中，可以使用“ scipy.stats”模塊的“ kstest”執行Kolmogorov-Smirnov測試，如下所示。

首先，我們将對随機生成的正态分布進行測試。

from scipy.stats import kstest np.random.seed(11) normal_dist = np.random.randn(1000) pd.Series(normal_dist).plot(kind="kde") print(f'{"Not Gaussian" if kstest(normal_dist,"norm")[1]<0.05 else "Gaussian"} {kstest(normal_dist,"norm")}')

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）8

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）9

現在我們将對Iris數據進行測試。

from scipy.stats import kstest for i in X.columns: print(f'{i}: {"Not Gaussian" if kstest(X[i].values,"norm")[1]<0.05 else "Gaussian"} {kstest(X[i].values,"norm")}')

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）10

以上結果表明，沒有變量具有高斯分布。 Kolmogorov-Smirnov檢驗期望輸入變量具有理想的正态分布。

方法六：D’Agostino和Pearson的法

此方法使用偏度和峰度測試正态性。該檢驗的零假設是，分布是從正态分布中得出的。

在Python中，可以使用“ scipy.stats”模塊的“ normaltest”功能執行此測試，如下所示。

from scipy.stats import normaltest for i in X.columns: print(f'{i}: {"Not Gaussian" if normaltest(X[i].values,)[1]<0.05 else "Gaussian"} {normaltest(X[i].values)}')

如何通俗理解随機變量函數的分布（如何知道一個變量的分布是否為高斯分布）11

以上結果表明變量0和1為高斯。此測試并不期望分布是完全正态分布，而是接近正态分布。

總結

這些是用于測試數據正常性的許多方法中的幾種。我個人更喜歡結合以上所有方法來确定變量的分布是否為高斯分布，同時要牢記所使用的數據，問題和模型。

作者：KSV Muralidhar

deephub翻譯組

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活描寫月亮的句子
1、我獨自一人在湖邊散步，發現月亮灣的水竟是這麼清澈而平靜，就像一面月亮鏡子，這湖深深吸引了我，它是... 2023-07-07
生活七夕節送相親認識的女孩子什麼禮物
1、送時尚小飾品女孩子都是很喜歡一些小飾品的，相親認識的女生也不例外，在這相親都是奔着在戀愛結婚的念... 2023-07-07
生活馮骥才有什麼作品（馮骥才作品胖子和瘦...
　　　　這城裡，胖子和瘦子是一對朋友。一個胖得出奇，一個瘦得驚人。這胖子等于瘦子四個左右。那時，胖子走紅運，當官兒必須是胖子，畫家專畫胖子，女人也要挑胖男人做丈夫。人人說胖子塊頭大，身壯力不虧，能顯出真正的男人氣。于是就出現了愈胖愈好的趨勢。這位本城最胖的胖子就受到格外重視，人們都向他讨教“胖身術”。他的照片、言論、轶事，到處争相刊載。其中他的兩句發胖經驗... 2023-07-07
生活洗燒水壺水垢的方法
1、水壺【幹燒】後加冷水：水壺裡有了水垢，水垢很硬，會牢牢地粘在壺底，很難用刀清除，可以水壺裡不加水... 2023-07-07
生活原本地闆表面有損壞怎麼修補（十幾萬元...
　　經本報調解，商家為消費者更換部分地闆　　1380元/平方米買來的進口的奧地利地闆，入住一個月，卻發生變形、拱翹等問題，消費者多次投訴，商家卻都以消費者使用不當回應，雖然維修人員五次上門維修，但地闆使用過程中發生的問題一直沒能解決。（詳見本報3月10日在8版《十幾萬元新裝地闆變形是消費者使用不當還是商家問題？》）　　日前，記者再次聯系了梁女士和地闆銷售... 2023-07-07
生活微信在哪關掉支付密碼
1、不能關掉支付密碼，隻能修改微信支付密碼。2、修改微信支付密碼方法為：進入微信錢包，點擊右上角的“... 2023-07-07
生活昵稱女生簡短好聽古風
1、清歌孤我2、憐音止夢3、故城4、予我長情5、折月煮酒6、折骨成詩7、淺安時光8、夜以笙歌9、聽我... 2023-07-07
生活瘦子堅持健身一個月變化（一個胖子和一...
　　原創内容，擅自搬運者必究！　　現在好身材的标準，并不是體重不過百，而是擁有一副好看的身材曲線，穿衣顯瘦，脫衣有型的身材線條。　　　　幹癟癟的瘦子已經不是主流審美，臃腫的胖子也不被大衆所接受，隻有一副緊實的身材線條，才是男女所追求的。　　而想要練出女神的翹臀、馬甲線身材，擁有男神的麒麟臂、倒三角身材，你需要的是進行健身鍛煉。隻有健身鍛煉才能幫你雕刻... 2023-07-07
生活唐嫣楊幂楊穎同框誰最美（當紅女星清宮...
　　近日，關于一組當紅女星的清宮造型引起了不網友熱議，這其中有85花也有90花，而且正是如今都當紅，話題量極高的女星，除了Angelababy（楊穎）沒有演過清宮劇，其他的幾位女星都演過，雖然baby至今還未出演過清宮劇，但卻在之前的綜藝節目裡嘗試了清宮造型。有着混血血統的baby，扮起清宮妃子的造型，令人有些說不出來是什麼氣質，可是真的被她美到了，隻是她的... 2023-07-07
生活楊桃隔夜怎麼保存
1、陰涼避光保存。将楊桃用報紙包裹好，然後将其置于陰涼避光處存放即可，期間要注意避免潮濕；如果楊桃成... 2023-07-07
生活遠嫁一定會後悔嗎（義無反顧遠嫁的你後...
　　在這個城市裡，我感受過最多的是孤獨，承受過最大的委屈，積攢過最多的後悔，卻不得不在堅持成長。　　　　義無反顧抛下這一切，想換了一種活法時，你準備好了嗎？換一種生活方式，還是不快樂，為什麼?别人都認為你應該是幸福的，快樂的，你不得不假裝快樂。你是輸不起，還是面子放不下去。在這一段新的婚姻裡，我認為，我要的不多，就應該幸福，對方就應該懂得珍惜我這個不物質... 2023-07-07
生活孫世賢vs松原張加強完整版（長春孫世...
　　咱說焦三和這兩個兄弟，就把景鬼子連拉帶扯的往樓下拽，眼瞅着就到一樓了。　　景鬼子這時候知道，如果讓這幫小子拽出樓去，這幫小子指不定幹出什麼事來了。　　所以景鬼子就是掙紮，兄弟！兄弟？你别拽了，這事确實是我做得不對，你這麼的兄弟，你想咋解決都行，你别再打我了。你看事已經發生了，這玩應一個巴掌拍不響。而且兄弟我跟你說，我的身份是捕快！如果你把我怎麼樣了，... 2023-07-07
生活張家輝有影帝的樣子（影帝張家輝雖未少...
　　我是一個演員，不是一個明星。我運氣不算太好，也不算太差。當年和我一起入行的很多人都不幹這個了，我還有機會拿到影帝。所以我會一直往前跑，有多少能力就跑多遠，直到跑的沒力氣了再停下來。　　——張家輝　　壹大家好我是渣渣輝。張家輝就因為“失手”代言了一個遊戲，拍攝時候需要他用普通話來介紹自己，但張家輝的普通話水平又有點牽強，加上拍攝當天張家輝有點感冒，所以... 2023-07-07
生活楊紫譚松韻誰旺男主（譚松韻上演雙女主...
　　#影視雜談#楊紫現在應該是女星中非常紅火的一個，不論是人氣、演技能力、火爆程度都是榜上有名，而譚松韻也是後起之秀，顔值、演技、人氣也是當仁不讓。這樣的兩位火爆女主首次聯手搭戲，是不是非常值得期待。　　新劇《裝腔啟示錄》即将啟動，楊紫、譚松韻、翟潇聞、陳哲遠等幾人主演，這個陣容是不是令人驚喜啊！　　　　楊紫、譚松韻搭檔，上演雙女主戲　　楊紫現在的... 2023-07-07
生活米糕怎麼保存
1、米糕用保鮮膜逐個包好，千萬不能放進冰箱，那樣會變硬，找個陰涼的地方保存好就可以，可以随身帶着當做... 2023-07-07
生活 windows7藍屏代碼0x0000...
1、windows7藍屏代碼0x0000007b原因：電腦硬盤設置出錯，進BIOS模式中設置為IDE... 2023-07-07
生活冬季水庫用蚯蚓釣鯉魚方法
1、蚯蚓可以打窩，扔一堆蚯蚓下去打窩，其實不是，我們如果扔活體蚯蚓下去的話，蚯蚓在水裡面一時半會死不... 2023-07-07
生活熟饅頭放冷凍還是冷藏
1、熟饅頭放冷凍冷藏都是可以的。如果是兩三天内可以吃完的饅頭，可以放在冷藏室内存儲，吃的時候再加熱就... 2023-07-07
生活孩子頑皮是壞事嗎（孩子乖是好事）
　　文|好孕姐　　朋友圈又有人在曬自己的“乖兒子”，配文是：我的兒子真乖，讓幹什麼就幹什麼，脾氣還很好，真的好喜歡他呀。之後也有人評論說：我家孩子特别喜歡頂嘴，都不能說，說一句就頂一句。唉，我也想有個“乖”孩子。下面也有很多朋友評論，表示羨慕。一時間我腦子就沒轉過圈，父母想要的究竟想要的是天真無邪的孩子，還是隻聽話的“乖”孩子？　　父母多半喜歡“乖”孩子... 2023-07-07
生活航班托運行李規定
1、托運行李的重量、尺寸規定：（1）托運行李國内航班每件重量上限為50kg/件；（2）每件尺寸限制4... 2023-07-07
生活紅糖姜水能放保溫杯嗎
1、紅糖姜水不能放保溫杯裡。因為這樣會降低茶的保健功能，容易生成茶垢不易清洗。2、降低茶的保健功能喝... 2023-07-07
生活禮拜天上班怎麼發朋友圈?
1、不管全世界所有人怎麼說，我都認為自己的感受才是正确的。無論别人怎麼看，我絕不打亂自己的節奏。喜歡... 2023-07-07
生活取一個高雅好聽的網名
1、拾荒者2、心系你。3、兜人嫌4、故人離5、終予你6、爛柯人7、白襯衫8、酒三兩9、詩兩行10、樹... 2023-07-07
生活怎麼吃男生才會瘦
1、首先，要飲食規律，早飯和中午飯要定量吃，不要吃太多了，7分飽就行了。晚餐可以吃一個蘋果。2、其次... 2023-07-07
生活甜瓜是香瓜嗎
1、甜瓜是香瓜。雖然它們的外形、氣味有一定區别，但二者屬于同一種瓜類，是一樣的。2、不管是甜瓜還是香... 2023-07-07
生活西米露是什麼東西
1、西米又叫西谷米，是印度尼西亞特産，西米有的是用木薯粉、麥澱粉、苞谷粉加工而成，有的是由棕榈科植物... 2023-07-07
生活科學家推測恐龍滅絕的真正原因（研究稱...
　　大多數鳥類并不像鹦鹉或孔雀那樣色彩斑斓。但如果你把目光投向羽毛以外的地方，鳥類身上的鮮豔色彩并不難找到。想想看，粉色的鴿子腳，紅色的雞冠和黃色的鹈鹕袋。德克薩斯大學奧斯汀分校的研究人員領導的一項研究表明，已滅絕的恐龍很有可能在類似的身體部位也有亮麗的色彩，并可能閃現它們的色彩來吸引配偶，就像今天的鳥類一樣。　　　　領導這項研究的得克薩斯大學奧斯汀分校... 2023-07-07
生活鮮松茸如何保存能夠多放點時間
1、一般在零下1.5度-2度之間，根據地區因素，可保存的時長在3到7天。2、若要長時間保存新鮮松茸，... 2023-07-07
生活電池綁在路由器上能加速網速嗎
1、不可能的事情。2、速度取決于帶寬、運營商。3、譬如:寬帶是200兆，使用的路由器是品牌，符合20... 2023-07-07
生活微波爐上面可以放烤箱嗎
1、微波爐上面不可以放烤箱。2、微波爐和烤箱的散熱系統一般分布在側面和上面，如果此類電器上面或者旁邊... 2023-07-07

tft每日頭條

> 生活

> 如何通俗理解随機變量函數的分布

如何通俗理解随機變量函數的分布

相关生活资讯推荐

热门生活资讯推荐

网友关注