統計學在我們生活中其實運用面還挺廣的,比如社會調查的結果分析都會運用到統計學的知識。
我們今天就來分享一下統計學的一些基礎的知識。
大緻而言,統計學由“描述統計”和“推論統計”兩部分構成。
描述統計就是從取得的數據中抽取其特征的技術。
推論統計是将統計學與概率理論相結合。對“無法整體把握的大的對象”或“還未發生而未來會發生的事情”進行推測。
一、描述統計
1、平均值
平均值就是用數據的合計除以數據的個數
平均數還可以通過以下公式求得
平均數=組值×相對頻數的合計
2 、方差
偏差=數據的數值-平均值
方差=[(偏差的平方)的合計]/(數據數)
公式:
3、标準差
标準差=方差的均方根
标準差反映組内個體間的離散程度(波動率)。
标準差的含義在統計學中很重要!
标準差越大,數據的離散程度越大,波動越大。
标準差是數據特殊性特殊性額的評價基準
±1倍标準差以内包含約70%數據
一組數據中某個數據的偏差在±1倍标準差左右,可以說這是“平常的數據”
±2倍标準差以外包含約5%的數據
如果在±2倍标準差以外,則可以說是“特殊的數據”
4、正态分布
概率密度函數
連續型随機變量的概率密度函數是一個描述這個随機變量的輸出值在某個确定的取值點附近的可能性的函數。而随機變量的取值落在某個區域之内的概率則為概率密度函數在這個區域上的積分。
正态分布
若随機變量X服從一個數學期望為μ、标準方差為σ2的高斯分布,記為:
X∼N(μ,σ2),
則其概率密度函數為
正态分布的期望值μ決定了其位置,其标準差σ決定了分布的幅度。因其曲線呈鐘形,因此人們又常常稱之為鐘形曲線。我們通常所說的标準正态分布是μ = 0,σ = 1的正态分布。
正态分布的特性:
1)正态分布的95%命中區間是(μ-1.96σ,μ 1.96σ)
2)變量X服從平均值為μ,标準差為σ,可以利用公式将其變換為标準正态分布
Z=(X-μ)/ σ
3)變量X服從平均值為μ,标準差為σ的正态分布時,95%的預測命中區間為解不等式
-1.96≤(X-μ)/ σ≤ 1.96 所得的範圍
5、假設檢驗
母群體服從正态分布時,可以通過假設總體參數,來檢驗觀測值是否落在95%的命中區間内。通過以下公式可以計算基于假設的總體參數的觀測值的範圍
-1.96≤(X-μ)/ σ≤ 1.96
如果觀測值在這個範圍内,接受假設,假設成立;如果不在這個範圍内,假設被舍棄。
6、區間估計
區間估計針對母群體的總體參數,在假定總體參數的情況下,隻集合列現實觀測到的數據在觀測數據的“95%預測命中區間”的總體參數。根據區間估計缺點的總體參數的範圍叫做“95%置信區間”
95%置信區間是這樣一種區間:它由各種各樣的觀測值用相同的方法進行區間估計,其中95%包含正确的總體參數。
二、推論統計
正态分布母群體
正态分布母群體的總體均值為μ,總體标準差為σ時,n個觀測數據x的樣本均值x的分布仍為正态分布,且樣本均值x的期望仍為μ,但标準差為σ/√n(标準誤差)
正态母群體中已知總體标準差為σ時,可以從n個樣本估計整體均值μ
保留滿足:
-1.96≤(x -μ)/(σ/√n)≤1.96,求得μ的95%置信區間
2、已知總體均值,估計正态母群體的總體方差
1)由n個觀測值計算V
2)從卡方分布臨界表中求得自由度為n的卡方分布的95%預測命中區間
卡方分布臨界值表的行索引為自由度,列索引為概率
值的含義可以理解為自由度為行索引時,大于該值的數據的概率為列索引
例如:對于自由度為5的卡方分布V來說,V的值有95%在“0.8312≤V≤12.8325”中。
3)解不等式求出σ²的95%置信區間。
3、未知總體均值,估計正态母群體的總體方差
步驟:
1)計算樣本均值x,根據樣本均值計算樣本方差s²
s²=[(x1-x)² (x2-x)² …(xn-x)²]/n
2)計算統計量W
3)确認的自由度為n-1的W的95%預測命中區間(a≤W≤b)
4)求出σ²的95%置信區間
4、未知總體方差,估計正态母群體的總體均值
步驟:
1)計算樣本均值x和樣本标準差s
2)計算服從自由度n-1的t分布統計量T
3)根據t分布表查出自由度n-1的T的95%預測命中區間(-α≤T≤α)
例如自由度為10,T的95%命中區間的臨界值為2.228,有-2.28≤T≤2.28
4)計算x–的95%置信區間
這四點是統計學中比較常用的基礎知識,有比較大的收獲嗎?有想了解的可以留言哦!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!