說過了創業者需要知道的統計學之一 · 說說平均數,很多人都會想到最近非常流行的兩句調侃 “被平均” 和 “拖後腿” 。既然我們說了均數是非常好的代表總體的一個指标,那這種感覺是怎麼來的呢?直覺錯了麼?除了故意擡杠,這個直覺是有一定道理。
相信大部分人聽說過 “正态分布”。這個正态分布的英文名有兩個,一個是高斯分布,為的是紀念它的發現者數學天才高斯。而另外一個呢,就是 Normal Distribution,也就是 “正常分布”。為什麼這麼說呢,因為這個分布在真實世界裡實在是太常見了(和斐波那契數列差不多了)。這裡我們不展開正态分布的事,以後會講。現在我們隻要知道正态分布很常見。在正态分布中大部分的數據(如果算平均薪水的話,就是大部分人的薪水的數值)是集中在整體數據的平均數的附近的。換句話講,就是這個 “均數” 可以代表大部分數據。這個就是我們在統計意義上,對“平均”這個事情的信心來源,通常來說 “均數” 代表了大多數,而且這才叫 “正常” 。
好了,那麼問題來了,既然隻是“集中在平均數附近”,就說明并不是所有數據都正好等于均數(廢話)。超過大家沒意見,少了就有人覺得被平均了。這裡就可以給出一個概念,離均差。顧名思義,就是每個數據離開均數的差距,公式就是做減法。若 代表數據,表示均數,那麼離均差就是。
一個數據如此,那全部數據呢?最簡單的想法就是,把離均差都加起來呗。問題又來了,稍微算一下就知道離均差有正有負。如果簡單地加總,那麼答案永遠是零,就失去的比較不同總體(比如上海和北京的平均薪水)的意義,零等于零麼?
這裡需要進行一下數學上的處理,把離均差先平方以後再加總。一來是方便,平方一般都會算的;另外呢,平方也不影響單調性。通俗地說,就是3比2大,那麼3的平方9也比2的平方4大,這樣就不影響比較了。于是公式就成了:
問題又來了。不同的總體擁有的數據量是不同的,比如北京和上海的在職人數不同,那麼人數多的總體就有可能怎麼都比人數少的那個大。北京上海還不明顯,你要北京和某四線城市比呢?對吧。這時,我們肯定會很自然的想,那麼再除以這個城市人數不就可以了?對的,所以式子就變成了:
這裡直接把方差的希臘字母放上去了,因為這個公式就是方差的定義公式。通過考察每個數據離開均數的差距,我們可以描述這個“被研究的總體”到底有多少人是“被平均”了,統計上說就是一個數據集的離散程度有多少。
好了,問題又來了.....(怎麼這麼多問題![淚奔])
平方僅僅是個數學處理,在現實生活中一般沒有啥意義,薪水的平方啥意思?又不能領了薪水先平方下再去花[呲牙]。所以,在統計指導意義上,還是再把方差求平方根。當然一般隻取正值,或者叫絕對值,但實際上表達的是正負都可以。這個平方根就是标準差(sigma)。
如果有人對前幾年大流行的精益管理還有印象的話,這個西格瑪就是6西格瑪裡的西格瑪。精益的 six sigma 就是用到了正态分布的雙側檢驗,以後有機會再讨論。
6σ Analysis
關注采客,下一次我們來讨論參數估計。如需更多支持服務,敬請留言~
采客,身邊的創業智庫![呲牙]
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!