本章無變化
(一)集中趨勢的含義及測度指标
1.集中趨勢的含義
集中趨勢是指一組數據向某一中心值靠攏的程度,集中趨勢的測度也就是尋找數據一般水平的代表值或中心值。
2.集中趨勢的測度指标
(1)均值
均值也就是平均數,就是數據組中所有數值的總和除以該組數值的個數。
①均值是集中趨勢中最主要的測度值,是一組數據的重心所在,解釋了一組數據的平均水平。
②均值主要适用于數值型數據,但不适用于分類數據和順序數據。
③均值易受極端值的影響,極端值會使得均值向極大值或極小值方向傾斜,使得均值對數據組的代表性減弱。
(2)中位數
①含義
把一組數據按從小到大或從大到小的順序進行排列,位置居中的數值叫做中位數。中位數将數據分為兩部分,其中一半的數據小于中位數,另一半數據大于中位數。
②計算
根據未分組數據計算中位數時,要先對數據進行排序,然後确定中位數的位置,n為數據的個數,其公式為:
(1)n為奇數:中位數位置是(n 1)/2,該位置所對應的數值就是中位數數值。
(2)n為偶數:中位數位置是介于n/2和(n/2) 1之間,中位數就是這兩個位置對應的數據的均值。
③适用
中位數是一個位置代表值,主要适用于順序數據和數值型數據,不适用于分類數據。中位數不受極端值的影響,抗幹擾性強,尤其适用于收入這類偏斜分布的數值型數據。
(3)衆數
①含義:衆數是指一組數據中出現次數(頻數)最多的變量值。
②适用:衆數适于描述分類數據和順序數據的集中趨勢。尤其是分布明顯呈偏态時,衆數的代表性更好。而定量數據中,可能出現多衆數和無衆數的情況,因此衆數不适用于描述定量數據的集中位置。
有些情況下可能出現雙衆數、多衆數或者沒有衆數,難以描述數據的集中趨勢。
(4)均值、中位數和衆數的比較
(二)離散程度的含義及測度指标
1.離散程度的含義
離散程度反映的是數據之間的差異程度。集中趨勢的測度值是對數據水平的一個概括性的度量,它對一組數據的代表程度,取決于該組數據的離散水平。
數據的離散程度越大,集中趨勢的測度值對該組數據的代表性就越差,離散程度越小,其代表性就越好。
2.離散程度的測度指标
衡量離散程度的指标包括方差、标準差、離散系數。
離散程度的測度指标
(三)分布形态的測度
分布形态的測度指标包括偏态系數和标準分數。
(四)偏态系數
偏态系數的取值含義可用數軸表示:
(五)标準分數(也稱為“Z”分數)
1.标準分數适用及計算
在統計上,均值和标準差不同時,不同變量的數值是不能比較的,來自不同分布的變量值不可比,但是每個數值在變量分布中相對于均值的相對位置是可比的,因此可以通過計算标準分數來比較不同變量的取值。标準分數可以給出數值距離均值的相對位置。
标準分數Z=(原始分數Xi-平均分數X)÷标準差s
2.标準分數的實際應用
在實際應用中,當數據服從對稱的鐘形分布時,可以運用經驗法則來判斷與均值的距離在特定倍數标準差之内的數據項所占比例。
(六)變量間的相關關系
客觀現象的相關關系可以按照不同标準來分類,具體如下表所示。
(七)相關關系的度量(散點圖和相關系數)
1.散點圖
兩變量之間的關系可以用散點圖來展示,具體見下圖:
2.相關系數
相關系數是度量兩個變量之間相關關系的統計量。最常用的相關系數是Pearson(皮爾遜)相關系數。相關系數的取值範圍在[-1,1]之間。關于相關系數的取值含義如下表所示。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!