(1)概率論的基本概念
随機事件、樣本空間:比如兩個人談戀愛,有成功和失敗的兩種可能,也就是随機事件包括兩個:成功、失敗,或者還有第三種:最後沒結婚但卻一直保持良好關系?如果沒有,樣本空間就是{成功、失敗};如果有,那樣本空間就是{成功、失敗,沒結婚卻保持良好關系},也就是說,随機試驗的結果稱為随機事件,一個随機事件的所有的可能結果構成了樣本空間。至于談戀愛算不算随機試驗,我們這裡就不探讨了。
條件概率:
條件概率P(A|B)是一種定義,它表示的意思是在事件A發生的條件下事件B發生的概率,
而 P(AB)的意思是A、B兩個事件同時發生。
全概率公式:
貝葉斯公式:
這兩者的區别就在于原因和結果颠倒了,而之所以可以颠倒的原因就在于P(AB)=P(BA),導緻:
(2)一維随機變量及其分布
這一章的關鍵就是正态分布曲線:
對于曲線上的每一點(x,y),其橫坐标代表的數值,縱坐标代表的是比例,比如,這條曲線如果表示一個100人的班級的考試成績,那麼橫坐标就是分數,縱坐标就是這個分數的學生所占比例。這條曲線從左到右所包圍的面積,就是某個分數段(比如0-60)分的學生所占的比例。這條曲線的最高點就是這個班的平均分。這條曲線還表示了一個意思,就是平均分旁邊的分數的學生所在比例更高,往兩邊比例逐漸縮小。
(3)二維随機變量及其分布
這一章的重點應該把握邊緣概率密度的概念。
一維概率密度函數f(x)指的是在x固定的情況下,x的這個值的取值頻度。
同樣,邊緣概率密度也是一樣的意思:
前者是指x固定,y在整個定義域内變動,後者則反過來。
(4)随機變量的數字特征
這一章的數學期望很簡單,就是樣本容量N趨于無窮大時平均值的極限值。
方差按照其公式
它表示的就是所考察的全部随機數與其平均值的偏差的一種度量。
比如,兩個班的學生的平均身高都是165,其中一個班的學生大多數在165附近,那麼這個班的學生的身高的方差就比較小;另一個班的學生有一部分180以上,另外一部分150以下,那麼這個班的方差就大。同樣,如果一個國家的平均國民收入數據的方差比較大,意味着貧富差距比較大,那麼,這個國家肯定在某個方面存在問題。
還有一個就是相關系數的概念,其定義
比如:
上圖是完全線性相關,下圖是X其中的一個點違反了規則,導緻相關系數下降。那麼,這個規則是什麼呢?
就是被考察的兩個變量,當它們同時大于或者小于其平均值的時候(X的均值為6,Y是12),它們的相關系數就大,反之則小。那麼,相關系數的含義就應該是,對于兩個變量其圍繞它們的均值進行變化的趨勢是否一緻的程度的一種度量。
(5)大數定律與中心極限定理
這章的重點應該是中心極限定理。
分子分母都除以n之後,定理變成:
我們注意到,這裡的變量已經變成了
也就是說,中心極限定理說的其實是,當一組獨立同分布的随機變量的數量足夠大的時候, 它們的均值也服從正态分布。
2.基礎數理統計
(1)抽樣分布
這一章主要是理解卡方分布:
那就是把卡方統計量看作是Y=Y1 Y2 ......,其中Yi=Xi^2,而Y的密度函數經過複合函數計算後為:
(2)參數估計和假設檢驗
這一章重點搞清楚似然估計和假設檢驗就差不多了。
似然估計:
我們常說的概率,是在已經知道随機變量某個值出現的可能性大小的情況下,來推測在某次試驗中這個值會出現多少次。比如預先知道,一枚正常的硬币,在抛擲的時候,正反兩面出現的可能性(概率)都是1/2,那麼,如果抛擲100次,可以預測正反兩面出現的次數都大概是50次;而似然性則是用于在已知抛擲100次硬币正反兩面出現的次數的基礎上,反過來推測正反兩面出現的可能性(概率),即根據某些觀測所得到的結果,對有關事物的性質的參數進行估計。
但是,我們應該得到一個更大的概率值,所以我們嘗試了所有θ可取的值,使得表達式θ⁷ (1-θ)³取得最大值的θ為0.7左右,這就是似然值的含義,也就是說,在已經知道試驗結果(7次正面,3次反面)的前提下,反過去推測θ值為多少(這裡假設硬币正反兩面出現的概率都可以不是1/2)才能使得試驗結果表達式θ⁷ (1-θ)³的值達到最大。注意這一表達式使用的是乘法原理得到的結果。
清楚這個問題以後,我們就可以提出
假設檢驗:某機床廠加工一種零件,根據經驗知道,該廠加工零件的橢圓度近似服從正态分布,其總體均值為m0=0.081mm,總體标準差為s= 0.025 。今換一種新機床進行加工,抽取n=200個零件進行檢驗,得到的橢圓度的均值為0.076mm。試問新機床加工零件的橢圓度的均值與以前有無顯著差異?(a=0.05)
解題結果:
看到這個結果以後,還是會覺得不好理解,為什麼就拒絕了假設H0呢?
這個計算結果就是告訴我們,新機床的産品(x)和老機床的總體均值之差處于上圖的藍色區域(z=-2.83)内,而上圖中兩邊藍色部分面積之和即a=0.05,也就是預先設定的檢驗水準。上述實驗結果還表明,隻有進一步縮小a值(比如3%),才能使得z=-2.83不包括在上面兩個藍色區間内,也就是在a更小的情況下,才能接受H0。這裡的a代表顯著性水平,顯著性水平越低,就表示原假設越難被推翻,假設檢驗越保守。顯著性水平越高,就表示原假設越容易被否定,假設檢驗越激進。也就是說,顯著性水平是留給某次實驗用來推翻原假設的可能性的大小。
這就好比一個女孩子對一個男孩子說,你本來追不到我(H0),但我願意給你5%的可能性(顯著性水平,意味着這個男孩子要在下雨天為她送飯)試一下,結果男孩子真做到了,也追到了這個女孩(否定了H0);而當這個女孩子隻願意給3%的可能性(意味着這個男孩子要在下雪天為她送飯)的時候,結果就沒有追到一樣。
(2)線性模型(回歸分析)和方差分析
回歸方程:
回歸方程系數的求解就是使得上圖中的誤差線段ei的平方和
最小:
從得出的結果可以看出,所考察的每一個點都對回歸方程的系數做出了貢獻。
從以上的分析可以看出,數理統計這門課的知識結構大概是:先是随機變量的基本概念,然後分别在一維和二維空間對随機變量進行分析計算,然後是點估計(包括矩估計法、最大似然法、最小二乘法等來估計數學期望、方差、相關系數等),區間估計(置信區間、假設檢驗等)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!