由于人力、物力、财力等主客觀因素的限制,在高中知識範圍内,現實生活往往采用簡單/分層随機抽樣的方式,從擁有大量甚至無限個個體數量的總體中抽取最具代表性的樣本,通過樣本來估計總體,所以研究有限容量的樣本尤為重要,對于樣本數據的集中趨勢有三個常見、常用的數字特征:平均數(均值)、中位數(中值)和衆數。
對于這三個數字特征的聯系與區别,新教材已有說明,不過沒有進行詳細的歸納,在此進行簡單的總結,水平有限,不正确的地方還請批評指正。
一、數據排列位置影響:
學生們都知道,對數據進行統計第一步要排序,一般按升序排列,拍完序發現中位數和平均數、衆數都不受排列順序的影響。假定不排序,不影響平均數的計算,會影響衆數的确定,最受影響的就是中位數:因為排列位置的差異導緻中位數馬上會改變這是中位數的缺點,而平均數、衆數并不受此影響,因此位置特征是中位數的主要特點,它又叫第50百分位數。
二、數字特征值個數:
平均數隻有一個,中位數也隻有一個,而衆數可以有多個或沒有,這是衆數的缺點!日常生活中諸如“最佳”、“最受歡迎”、“最滿意”等,都與衆數有關系,它反映了一種最普遍的傾向。
例1數據:
1 1 1 2 2 3 3 3
這一組數據有8個數字,其中平均數為2,中位數是(2 2)/2=2,衆數是1和3,因為1和3出現的頻次并列最多,都是3次。
例2數據:
1 2 3 4 5 6 7 8
這8個數據沒有重複的,每個數據出現的次數都隻有1次,那就不存在衆數,俗話說“沒有突出的那個數字”,“都是将軍拔不出矮子”。
三、數據代表的可靠性和穩定性:
平均數比中位數、衆數相比最具代表性。
從平均數的計算公式來看,它與樣本中每一個數據都有關系,從而反映出來的信息最為充分。平均數既可以描述一組數據本身的整體平均情況,也可以用來作為不同組數據比較的一個标準。因此,它在生活中應用最廣泛,比如我們經常所說的平均成績、平均身高、平均體重等等。
不同的一組數據中,三個數值可以相等,也可以不相等。由于各個統計量有各自的特征,所以需要我們根據實際問題來選擇合适的統計量。
四、數據極端值的影響:
如果數據中存在極端的偏大數和偏小數,馬上就會影響到平均數的水平,這也是平均數的缺點。而中位數和衆數這兩個統計量的特點都是能夠避免極端數據,但缺點是沒有完全利用數據所反映出來的信息。
舉個例子,如果一組數據中個别數據有很大的變化,且某個數據出現的次數較多,此時用衆數表示這組數據的集中趨勢比較合适。
五、數據分布形态:
下圖不言自明,頻數較多、頻率較高極端值會導緻均值左偏和右偏,數據分布圖形因此呈現出三種不一樣的圖象。
隻有在數據分布偏态(不對稱)的情況下,才會出現均值、中位數和衆數的區别。如果是正态的話,用哪個統計量都行。另外,如果偏态的情況特别嚴重的話,可以用中位數。
其實,我們處理的數據,大部分是對稱的數據,數據符合或者近似符合正态分布。此時均值(平均數)、中位數和衆數的誤差隻要在可以接受範圍之内即可。
六、數據作用與地位:
從高一和高二所學知識點和所考題型來看,平均數or平均值(均值)顯然比衆數、中位數的出現頻率要高得多,為什麼呢?因為在數學上,平均數是使誤差平方和達到最小的統計量,也就是說利用平均數代表數據,可以使二次損失最小。【這個在下次有關方差的教學文章中給與簡單的解釋,專業的解答還需要向大學教授請教,我實在不會哈】
七、适合的求和法數據類型:
衆數隻是頻數,求法是計數,适合屬性或分類變量;值得注意的是:當一組數據的那個衆數出現的次數不具明顯優勢時,用它來反映一組數據的典型水平是不大可靠的。
中位數和平均數(均值)的單位和原始數據是一緻的,中位數求法是排序,平均數求法需要計算,比較适合數值變量。以平均數為例,如果權數fi都一樣,直接求和再除以樣本容量即可;如果權數或權重不一樣,則使用加權平均公式來計算。
大緻翻了一下大學用的書,裡面知識豐富遠超過高中教材,正所謂“學然後知不足”,感興趣的朋友們可以再深入了解了解。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!