今天我們就來說說統計學、概率論和數理統計
為什麼要說他們呢,
因為這幾個字眼大家肯定是已經無數次地碰到過了,但他們究竟代表了什麼,以及他們之間的區别與聯系,相信大家平時肯定是沒怎麼關注過,而是更多的混為一談。
然而今天,随着大數據與數據科學的熱火朝天,這幾個詞重新被大家給予了高度關注,特别是統計學。原因也很自然:分析思維是數據科學的核心思維方式,而分析思維就是關于計算與統計的思維。
統計思維生長的土壤就是概率論和數理統計。
1、統計學
首先說說統計學,關于這個詞其實是個曆史遺留問題。因為從統計學的發展曆史來看,最早的統計學和國家經濟學有密切的關系。統計學的英文是“statistic”,其實它是源于意大利文的“stato”,意思是“國家”、“情況”,也就是後來英語裡的state(國家),在十七、十八世紀,統計學很多時候都是以經濟學的姿态出現的。根據維基百科:
一是随機性,就是說數理統計的研究對象應當具有随機性,确定性現象不是數理統計所要研究的内容。
因此,從數理統計的學科特征來看,數理統計是應用數學的一種,并且是目前最為活躍的分支之一。由此,數理統計從學科劃分來說,應屬于數學學科,但是其重在應用,而不是純數學理論或方法的研究,故其采用的方法也就重在歸納法,而不是數學的演繹法。
綜上,數理統計的主要特點可以用一句話概括為:數理統計是一門對随機現象進行有限次的觀測或試驗的結果進行數量研究,并依之對總體的數量規律性做出具有一定可靠性推斷的應用數學學科。
4、統計學、概率和數理統計的辨析
看到上面的這些說法,加上幾個學科的快速發展和應用,很多時候大家往往都不加區分的将這些概念混淆起來,特别是在應用的時候,很多時候也都無傷大雅。但是,一旦我們深入研究,特别是看國内外相關文獻的時候,還是要加以區分的。否則,拿起兩本類似書名的書,很可能裡面的内容是大相徑庭的。
我們先來看看統計學和概率論。
簡單來說,概率論研究的是“是什麼”的問題,統計學研究的是“怎麼辦”的問題。
統計學不必然用到概率論,比如用樣本均值來表征總體某種特征的大緻水平,這個和概率就沒有關系。但是因為概率論研究的對象是随機現象,而統計學恰恰充滿了無處不在的随機現象:因為要随機抽樣。因此概率論就成為了精确刻畫統計工具的不二法門。
概率方向更偏數學,統計更多應用。很多大學裡的科研,概率和統計都不是一個組(更有甚者,有的大學統計單獨成立一個學院,獨立于數學學院)因為大家做的東西确實不太一樣。
再舉例來說,如今火熱的金融數學,就屬于概率方向的,大家本科的概率論隻能算是最基礎的課,其他像Stochastic Calculus,Random Model,Markov Chain,Martingale,測度論,以及一直比較火的時間序列分析等等,這些都是學概率方向研究的,不是數學系出身,你幾乎很難入門。而統計則更多作為應用的科學,常見的分支有生物統計,醫療統計,經濟統計等等。
現在統計學火熱一方面是如今各行各業都需要數據分析,大數據更是被吹上了天;另一方面統計入門門檻相對一般數學系專業更低,簡單的說,非數學系要求的數據分析,用個SPSS,SAS啥的也就夠了,但凡你學過高數,概率論,搗鼓搗鼓也沒那麼難理解,非數學系了解常見分布,看得懂置信區間,p-value,再來些F-test,t-test就差不多了。當然,數學系的統計就沒這麼容易了,數學系的統計常見的會研究各種分布,Bayesian統計,神經網絡,金融風險,時間序列分析等等,用的軟件也肯定是R居多。
Larry Wasserman在他的統計學巨作All of Statistics的序言裡有說過概率論和統計推斷的區别,如下圖所示。
它們之間的區别包括:
因此,統計和概率是方法論上的區别,一個是推理,一個是歸納。
打個比方,概率論研究的是一個白箱子,你知道這個箱子的構造(裡面有幾個紅球、幾個白球,也就是所謂的分布函數),然後計算下一個摸出來的球是紅球的概率。而統計學面對的是一個黑箱子,你隻看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的内部結構,例如紅球和白球的比例是多少?(參數估計)能不能認為紅球40%,白球60%?(假設檢驗)
而概率論中的許多定理與結論,如大數定理、中心極限定理等保證了統計推斷的合理性。做統計推斷一般都需要對那個黑箱子做各種各樣的假設,這些假設都是概率模型,統計推斷實際上就是在估計這些模型的參數。
概率論就好比是給你一個模型,你可以知道這個模型會産生什麼樣的數據;而統計則是給你一些數據,你來判斷是由什麼樣的模型産生的。
再從小概率事件看看兩者的關系:
概率論會說小概率事件必然發生。
因為随着試驗次數的增多,該事件會發生的期望終會為1。
統計則傾向于忽略小概率事件或者認為小概率事件不會發生。
例如最大似然估計,估計的就是一個以假設值代替真實值的過程,這個過程一個自然的思想便是認為小概率不會發生,所以我們有充足的理由認為估計是可接受的。
再來看看數理統計與統計學之間的差異,主要有以下幾方面:
從上述數理統計與統計學的特點及其比較,可以清楚地看到,随着現代統計學的發展及其在社會政治經濟生活中發揮作用越來越大的趨勢,數理統計研究問題的理念及其方法已對統計學的發展産生重要的革命性影響,但是,數理統計與統計學還是兩門差異較大的學科,不可能簡單地加以混淆。
4、統計是數學嗎?
最後再來說說統計是不是數學的問題。這個問題如果問上世紀末某統計大牛A,他會很堅定的說統計是數學。如果又問某著名大學統計系領導B,他會不屑的答曰,不算,因為統計是微積分。
我們在學習統計的時候,特别是在推導概率分布的時候會發現,統計上用微積分證明的地方太多。但是統計對于數學的其他方面,比如拓撲,數論等基本完全不涉及。因此,首先數學是比統計更加寬泛的學科。
第二,統計和概率論是平行的兩個不同的理念。概率論是假設你已經知道了整體然後對一個事件的發生概率進行計算。而統計是指你不完全理解整體,你的目的就是為了理解整體的。但是整體的數量太大。所以你退而求其次,用抽樣的方法來獲得理解整體。但是抽樣就意味着有誤差,而誤差有的時候會因為你抽樣方法的選擇或者随機事件的爆發而變的很大。這點在數學上很多人不能接受,數學更講究精确。而且對于很多學數學的人來說,隻有對或者錯。例如抽象代數。所以數學上有一部分人不喜歡統計,會說統計是變魔術。
總的來說,一個可以接受的觀點是:概率論是純數學,數理統計是應用數學,而統計學則是借鑒了概率論和數理統計的一門超級應用學科(數學)。
随着大數據和數據科學時代的到來,這幾個學科将會有什麼樣的進一步發展,讓我們拭目以待。
最後給大家留一個小問題:你能區别probabilistic、random和stochastic嗎?
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!