tft每日頭條

 > 科技

 > 正态分布文字分析

正态分布文字分析

科技 更新时间:2024-08-15 06:12:43

正态分布文字分析(徹底理解正态分布)1

每個試圖進入強大的數據科學世界的人都會遇到正态分布。在這篇文章中,我将以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。

什麼是正态分布?

正态分布也被稱為高斯分布或鐘形曲線(因為它看起來像一個鐘),這是統計學中最重要的概率分布,就像我們在大自然中經常看到的那樣,它有點神奇。例如,身高、體重、血壓、測量誤差、智商得分等都服從正态分布。

還有一個跟它相關的,并且非常重要的概念,叫中心極限定理,這将在以後的文章中讨論。

正态分布文字分析(徹底理解正态分布)2

現在,參考上面的圖像,并了解一個正常變量的值是如何分布的。這是一個對稱分布,其中大多數觀測值聚集在具有最高發生概率的中心峰(均值/平均值)附近,并且當我們在兩個方向上都偏離中心峰時,我們看到曲線尾部出現值的可能性越來越小。此圖描繪了一個群體的智商水平,可以理解,智商水平非常低或智商水平很高的人很少見,并且大多數人都處于平均智商得分範圍内。

我們周圍的很多很多變量都可以用這個正态分布來描述。想想所有同事到達辦公室所需要的時間,隻有少數人會住在5分鐘或2個多小時的距離内(尾部)。大多數人将在20分鐘-70分鐘的距離(即峰值附近的區域)。當你研究越來越多的正态分布的變量時,你會發現它無處不在。

正态分布的參數

正态分布總是以平均值為中心,而曲線的寬度則由标準差(SD)決定。

正态分布文字分析(徹底理解正态分布)3

這是兩個正态分布,x軸上的高度單位是英寸,y軸上是特定高度對應的人數。

  1. 嬰兒的平均身高為20英寸(50cm),标準差為0.6英寸(1.5cm)。
  2. 成年人的平均分布為70英寸(175cm),标準差為4英寸(10cm)

了解正态分布标準差的意義在于,它遵循一個經驗法則,即大約95%的測量值落在均值附近的 /- 2倍個标準差之間。

推論:95%的人口落在平均值 /- 2*SD之間

  1. 95%的嬰兒身高在20 /- 1.2英寸之間
  2. 95%的成年人身高測量值在70 /- 8英寸之間

正态分布的第一個參數是均值

均值或平均值是正态分布的集中趨勢,它決定了曲線峰值的位置。平均值的變化導緻曲線沿x軸水平移動。

正态分布的第二個參數是标準差SD

标準差是正态分布變異性的量度,它決定了曲線的寬度。SD值的變化導緻曲線變得更窄或更寬,并對曲線的高度産生反比例的影響。

  • 更緊的曲線(較小的寬度)->更高的高度
  • 更寬的曲線(更高的寬度)->更短的高度

現在,你已經了解了正态分布曲線的所有基礎知識。讓我們繼續學習與之相關的其他重要信息。

正态分布文字分析(徹底理解正态分布)4

所有正态分布的共同特征

  1. 它們都是對稱的。
  2. 平均值=中位數
  3. 根據經驗法則,我們可以确定正态分布曲線離均值标準差範圍内的數據百分比。

通過一個示例,這一點将變得更加清楚。

正态分布文字分析(徹底理解正态分布)5

讓我們來看一個披薩外賣的例子。假設一家披薩餐廳的平均配送時間為30分鐘,标準偏差為5分鐘。根據經驗法則,我們可以确定68%的交付時間在25-35分鐘(30 /- 5)之間,95%在20-40分鐘(30 /- 2*5)之間,99.7%在15-45分鐘(30 /-3*5)之間。

當我們知道如何将統計應用于現實生活中的問題時,看到事情變得多麼直觀了嗎?我的統計學家、數據科學家/工程師、ML/AI愛好者或正在閱讀這篇文章的那些好奇的家夥們,繼續前進吧!

在這篇文章的最後一部分,我們将學習正态分布的一個特例

标準正态分布:正态分布的特例

如前所述,正态分布根據參數值(平均值和标準差)有許多不同的形狀。标準正态分布是正态分布的一個特例,均值為0,标準差為1。這個分布也稱為Z分布。

标準正态分布上的值稱為标準分數或Z分數。标準分數表示某一特定觀測值高于或低于平均值的SD數。

例如,标準得分為1.5表示觀察到的結果比平均值高1.5個标準差。另一方面,負分數表示低于平均值的值。平均值的Z分數為0。

想了解更多精彩内容,快來關注老胡說科學

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved