tft每日頭條

 > 科技

 > 箱線圖中的異常值分析

箱線圖中的異常值分析

科技 更新时间:2024-07-09 04:49:50

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)1

箱形圖是我們日常使用的頻率很高的圖形,這篇文章分享在實際數據分析時,箱形圖都可以怎麼應用。

一、什麼是箱形圖?

箱形圖(也稱盒圖,箱線圖等),因為形狀長得像一個箱子而得名。它是用于顯示一組數據分散情況資料的統計圖,可以通過這種圖直觀的探索數據特征。

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)2

箱線圖


二、箱形圖怎麼看?

箱形圖的每一條橫線都有意義,共由五個數值點構成,分别是最小觀察值(下邊緣),25%分位數(Q1),中位數,75%分位數(Q3),最大觀察值(上邊緣)。

  • 中橫線:中位數

  • IQR:75%分位數(Q3)-25%分位數(Q1)

  • 最小觀察值(下邊緣) = Q1 – 1.5 IQR

  • 最大觀察值 (上邊緣)= Q3 1.5 IQR

特别說明:箱形圖裡面的極大值(上邊緣值)并非最大值,極小值(下邊緣值)也不是最小值。

如果數據有存在離群點即異常值,他們超出最大或者最小觀察值,此時将離群點以“圓點”形式進行展示。

三、箱形圖實際數據分析中的應用

(1)識别數據中異常值(離群點)

不論什麼研究數據,在分析之前應該對數據進行預處理,其中找到并處理數據異常值,即數據中出現偏離所屬樣本的大部分觀測值的數值,就可以使用箱形圖,它可以非常直觀地展示出異常數據。

1、案例數據

比如我們有一份數據,記錄一個班級總共48位學生的成績,數據中存在異常值,當我們把這份數據上傳到SPSSAU系統中進行相關分析前,首先要考慮找出異常值、剔除異常值,否則這些異常值會影響之後數據分析的結果,甚至得到完全相反的結論。


箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)3

部分數據


2、繪制箱形圖

我們借助箱形圖來識别數據中是否存在異常值,繪制方法如下:

①上傳數據後,在SPSSAU中的【可視化】闆塊選擇【箱線圖】

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)4

②因為想要看【成績】這個定量變量是否存在異常值,所以将【成績】變量放入對應分析框中,點擊【開始分析】即可得到箱形圖。

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)5


③輸出箱形圖

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)6


箱形圖中的異常值會以“圓點”的形式進行展示,從圖中可以很直觀的看到,成績中存在2個異常值,下一步就可以考慮去處理這些異常值了 。

(2)比較不同類别的數據分布情況

箱形圖還很适合非參數檢驗時查看不同類别X時,Y的數據分布情況,由于它使用的是中位數和四分位數等描述性統計量,比平均數和标準差更為穩健。

還是上面的例子,我們同樣可以使用箱線圖來比較不同性别時,成績的分布情況。可以将【性别】定類變量放入定類分析框中,将【成績】變量放入定量分析框中,點擊【開始分析】:

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)7

輸出箱線圖:

箱線圖中的異常值分析(箱形圖在實際數據分析中的應用)8


圖形解讀:

要将性别分開比較,可以發現女生的中位數比男生高(分别是88,80),另外女生的箱線圖中,中間橫線也就是中位數沒有在箱子的中間,而是在偏上方的位置,說明有異常值拉低了平均值。另外主要看中間的箱子,可以看出,女生的成績比男生更集中。



,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved