tft每日頭條

 > 生活

 > 标準差需要多少組數據才能算

标準差需要多少組數據才能算

生活 更新时间:2024-12-27 15:20:41

标準差需要多少組數據才能算(08l标準差)1

數據給你一雙看透本質的眼睛,這裡是《數據分析思維課》。

前面我們講過平均值不能夠代表整體的水平,也給你講了大數定律、散點圖這些知識。接下來我們再進入一個常見的問題:怎樣能快速看清一組數據的大概情況

對于這個問題來說,我們不必用非常複雜的散點圖或者文字來進行表述,這個時候就輪到标準差登場了。标準差和數據分布、平均值一起就可以很方便地描述一組數據的大緻情況。

标準差還有一個孿生兄弟叫做标準誤差,這兩個兄弟确實很像,我們也會經常能聽到說“這個問題在誤差允許的範圍裡。”感覺一旦說了這句話,好像這個東西就很靠譜了,但真的是這樣嗎?今天我就給你展開講講标準差和标準誤差。

标準差

标準差的概念比較簡單,它代表一組數值和平均值相比分散開來的程度。也就是說,标準差大代表大部分的數值和平均值差異比較大,标準差小代表這組數字比較接近平均值。

标準差的計算公式我給你放在了附錄裡,公式看上去稍微複雜一點,但主要就是算每一個數據和平均值之間的差異距離。你經常聽說某市平均薪資是 X 萬,你很納悶我和周邊人薪資這麼少,為啥平均薪資那麼高,我是怎麼“被漲薪”的?我們可以看一下下面這個例子,假如兩個小組的月薪大概是如下這個樣子,單位都是“萬”。

第一組:[1.72,1.70,1.68,1.71,1.69] ;第二組:[1.70,5.20,0.60,0.2,0.8]。

這兩組人你可以簡單計算一下,你會發現平均月薪都是 1 萬 7。但很明顯,第 2 組人的薪酬高低差異要比第 1 組人大很多。第一組人都是 1 萬 7 左右的薪資,差異不大。你很不巧在第二組裡,你月薪 6000,周邊都是 2000、8000 的小夥伴,但是實際上,你這組裡有月薪 5 萬的人你不認識,于是,你就“被漲薪”了。

通過公式或者 Excel 函數(我在最後一章會教你如何方便地計算),你能算出來第一組标準差是 0.014,第二組是 1.818,差異能有一百多倍。如果每次隻給你某地區或者某部門的平均薪酬,但是不告訴你這個地區部門它的标準差有多大,那我們難免就會覺得困惑,“不患寡而患不均”用在這裡依舊很合适。

所以看薪資的時候,你不僅需要知道一個平均值,同時還需要知道一個标準差,你才能知道整體薪資水平、你自己的水平以及你将來的天花闆在哪裡。

但是隻有這個概念還不夠,假設對于第 1 組的薪資單位來說,我用的是不是“萬元”,而是用“百元”甚至“元”作為單位的話,它的标準差就會到 1.414 和 141.4。這個時候再和第 2 組人員去比,感覺好像标準差的離散度更高,但是實際數據卻不是如此。

所以一般我們真的在做數據分析的時候,我們會常用另外一個數據來規避這種問題,它叫做離散系數 CV(coefficient of variation)。它的計算公式很簡單,就是用标準差除以平均值(離散系數 = 标準差 / 平均值),這樣的話就規避了單位或者其他因素的這些差異。我們直接看離散系數這個數據,就能知道這幾組數據之間的離散程度和差異是什麼樣的。

下次你再去問人力資源部門的平均薪酬的時候,你可以多問一句“這個部門的離散系數有多少?”你大概就會知道,你可以要到最高多少的薪酬和你将來的漲薪空間會有多大了。

标準差的具體使用

标準差除了衡量一個群體裡面具體數值之間差異有多大,比如說衡量我們的薪酬、身高、體重這些差異之外,它還有什麼用呢?

它也會用于衡量一個人或者一個團隊的穩定性,比如說。在你常見的 NBA 裡我們會用平均數據來衡量一個球員的戰鬥力,比如場均得分,蓋帽,搶斷助攻等等。

标準差需要多少組數據才能算(08l标準差)2

同時,我們會使用标準差來衡量一個球員的穩定性。

如果隻看場均得分達到 20 的球員中,當屬勒布朗 - 詹姆斯最穩定,标準差為 5.8 分,遍曆他本賽季所有的比賽,他既沒有超過 40 分的狂飙,也無低于 13 分的低迷。

類似的,我們在衡量一個團隊的銷售業績整體情況的時候,我們會使用平均值。但是如果我們要看的是一段時間内團隊成員的收入穩定情況和能力,我們就會看他最近成單的标準差。

同樣,對應到做管理上,比如我做 CTO 管理程序員的時候,我會去留意大家提交代碼的節奏。有的人就是喜歡所有事情都到最後一天才完成提交,有的人就喜歡平均用力,在各個時間段裡都有提交。

用标準差來看,你就會發現有的人标準差非常大,屬于突擊型選手;有的人标準差很小,屬于細水長流型選手。對于标準差比較大的人,他的風險就比較高,因為他有可能最後關頭完美完成任務,也有可能拖延症拖到最後事情沒有完成,最後整體的平均值都沒有達到;而按部就班的人,他的标準差比較小,優勢是比較穩定,但是突破性可能不夠強。學到這裡,你也可以試着評估一下你的工作節奏,你是屬于哪一種選手呢?

而在做投資的時候,标準差也是一個重要的風險 / 收益衡量指标。你看我們在銀行儲蓄,這個利率波動就很小,相應地标準差很小;股票的波動就會大一些,收益的标準差也會比較大;你再看比特币,一會兒馬斯克一句話翻好幾倍,一會兒跌 30%,炒币收益的标準差可能是銀行收益标準差的上萬倍,股票的上百倍。

所以如果你把錢放在銀行,标準差較小,收益穩定;而如果你要去炒币,标準差這麼大,你有可能大賺一大筆也可能賠得血本無歸。标準差,其實就是代表着一個行業裡面的波動情況,特别面對一個你不理解的投資産品的時候,可以看一下這個産品曆史的标準差,和你常用的投資品比對一下,你心裡就有數了。像黃金這種很穩定的産品,幾個标準差就很大了。比如 2013 年 04 月 16 日黃金大跌,路透社分析師約翰·肯普(John Kemp)感歎黃金波動率超過 6 個标準差,覺得非常不可思議。

像黃金一類很少波動的東西出現了這麼大的波動,達到 6 個标準差的波動的時候(本來穩定的标準差發生了巨大改變),我們就把這種事件叫做“黑天鵝事件”。這次事件也被後來的人叫做“黃金黑天鵝事件”,所以你下次再看到黑天鵝事件的時候,你要知道這個說法是從标準差這裡衍生出來的概念。

标準誤差

說完标準差,我們來說一下它的孿生兄弟:标準誤差。誤差這個詞我們經常在生活和工作當中提到,說“這個是在我們誤差範圍裡可以接受的。”那麼這句話裡面提到的“誤差範圍”說的到底是什麼呢?它和标準差是啥關系?

這兩個概念經常在很多地方被混淆,以至于很多的統計模型裡說的标準差,其實說的是标準誤差。這兩個概念之間最大的差别其實就是在于,标準差是針對确切一次的已知統計結果,反映的是在一次統計中,個體之間的離散程度,也可以說标準差是針對具體實例的描述性統計

标準誤差代表一種推論的估計,它反映的是多次抽樣當中樣本均值之間的離散程度,也就是反映這次抽樣樣本均值對于總體期望均值的代表性,它主要是用于推斷整體情況預測和推算使用。如果這麼說你還是有些分不清這兩兄弟,你可以用下面這個兩個公式來對照分辨一下。

标準差(Standard deviation)= 一次統計中個體分數間的離散程度,反映了個體對樣本整體均值的代表性,用于描述統計。

标準誤差(Standard error)= 多次抽樣中樣本均值間的離散程度,反映了樣本均值對總體均值的代表性,用于推論統計。

标準誤差的具體使用

标準誤差經常會被用于拿出一部分樣品去判斷整體産品線的産品質量,或者判斷一個事情是不是屬于常見範圍。

比如說我們常見的六希格瑪(Six Sigma),其實就是指所有的産品質量問題需要控制在 6 個标準誤差裡面。你聽到的産品質量或者運維故障控制在 3 個 9 或者 5 個 9,說的也是誤差範圍。5 個 9 的意思就是 99.99966% 的産品是沒有品質問題的。

這個是 99.99966% 怎麼算出來的呢?這就涉及我們 06 講裡正态分布的知識,你要是記不清了,可以回過頭再複習一下。

比如說我們用下面這個圖做質量控制,那麼這些值就是标準誤差範圍。例如,我們說在一個标準誤差範圍裡,大概就是圖裡面的 68.3%;兩個标準誤差範圍裡也就是距離均值(标準件)的 95.4%;三個标準誤差就是 99.7%;6 個标準誤差(也就是 6-sigma)也就代表着要控制到在生産的産品中,有 99.99966% 的産品是沒有品質問題的(每一百萬件産品中隻有 3.4 件有缺陷)。

标準差需要多少組數據才能算(08l标準差)3

所以說我們從标準誤差來看,系統的穩定性要保證 5 個 9、6 個 9 或者說我們開發的代碼的質量控制是 6-sigma,這個質量就非常好了。這麼說可能你還沒有感覺,我再給你做個比喻,幫助你理解一下。

帥哥美女其實在社會裡面是非常難得一見的,畢竟我們絕大部分都是普通人。我們先假設人類美麗和帥的程度随機分布(整容的人沒那麼多),如果你每天見到一個美女(帥哥),那麼有如下公式成立:

  • 1 個标準誤差的美女約為 3 天一遇;
  • 2 個标準誤差的美女為約 22 天一遇;
  • 3 個标準誤差的美女約為 370 天一遇;
  • 4 個标準誤差的美女約為 43 年一遇;
  • 5 個标準誤差的美女約為 4779 年一遇;
  • 6 個标準誤差的美女約為 139 萬年一遇;
  • 7 個标準誤差的概率約為 10 億年一遇。

這樣看,你就知道 6 個标準誤差有多麼嚴格了。你下次遇到一個特别美麗的女孩子,你覺得她是萬年一遇的美女的時候,你可以和她說:“啊,你是 6 個标準差一遇的美女啊!”這肯定比說“你真美麗”要有深度得多,她肯定會對你學識非常敬仰(開個玩笑,真說估計會被打出去)。這樣你應該知道标準誤差是一個什麼含義了。

小結

好,回顧一下今天的内容,今天主要給你講了兩個概念:标準差和标準誤差。

标準差針對已經發生的事情,它是平均值的一個補充标準。而标準誤差是多次抽樣當中對樣本離散程度的描述,用于推論中使用。在後面的内容裡,我們還會用到這兩兄弟來評估和衡量一個算法的穩定性以及實現結果的好壞。

看一個人、一個企業、一個投資産品靠不靠譜,除了人辦事情的成功率、企業收入平均值和産品的盈利率,你還要看它标準差是怎樣的。有可能這個所謂的“成功人士”隻成功了一次,賺了一大筆錢,但是其實别的事他都失敗了,那說明這人的标準差很大,有可能他就是靠運氣,不太靠譜。我們中國人其實是比較喜歡“中庸”的這種感覺,用标準差的視角來看,就是自己做事做人的标準差要小。

對标準誤差來說,我送你一個成語,叫做“嚴于律己,寬于待人”。前半句是指我們在工作和生活中,要盡量少出錯,甚至是不犯錯,這樣不僅做事漂亮,領導喜歡,而且這種不斷追求完美的理念,會一直推着我們往前跑。你可以試試,把六西格瑪的思想不僅用在工作中,也用在生活裡,對自己高标準、嚴要求一段時間,相信你會獲得更進一步的成長。後半句是說,躺平無罪,奮鬥有理。我們可以用六個标準誤差來要求自己,但是别人也有用一個标準誤差要求自己的自由。

如果用一句話來概括,希望你盡量把自己做人做事的标準差變小,提高對自己的标準差預期

數據給你一雙看透本質的眼睛,數據知識學無止境,讓我們一起持續學習,一起共勉。

思考

你過去遇到過什麼黑天鵝事件嗎?從你的角度看,它是幾個标準誤差的範圍呢?歡迎你在評論區分享你的想法,我們一起提高。

附錄:方差及标準差公式

标準差需要多少組數據才能算(08l标準差)4

标準差需要多少組數據才能算(08l标準差)5

關注緻用教育,我們共同成長

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved