箱形圖是我們日常使用的頻率很高的圖形,這篇文章分享在實際數據分析時,箱形圖都可以怎麼應用。
一、什麼是箱形圖?
箱形圖(也稱盒圖,箱線圖等),因為形狀長得像一個箱子而得名。它是用于顯示一組數據分散情況資料的統計圖,可以通過這種圖直觀的探索數據特征。
二、箱形圖怎麼看?
箱形圖的每一條橫線都有意義,共由五個數值點構成,分别是最小觀察值(下邊緣),25%分位數(Q1),中位數,75%分位數(Q3),最大觀察值(上邊緣)。
中橫線:中位數
IQR:75%分位數(Q3)-25%分位數(Q1)
最小觀察值(下邊緣) = Q1 – 1.5 IQR
最大觀察值 (上邊緣)= Q3 1.5 IQR
特别說明:箱形圖裡面的極大值(上邊緣值)并非最大值,極小值(下邊緣值)也不是最小值。
如果數據有存在離群點即異常值,他們超出最大或者最小觀察值,此時将離群點以“圓點”形式進行展示。
三、箱形圖實際數據分析中的應用
(1)識别數據中異常值(離群點)
不論什麼研究數據,在分析之前應該對數據進行預處理,其中找到并處理數據異常值,即數據中出現偏離所屬樣本的大部分觀測值的數值,就可以使用箱形圖,它可以非常直觀地展示出異常數據。
1、案例數據
比如我們有一份數據,記錄一個班級總共48位學生的成績,數據中存在異常值,當我們把這份數據上傳到SPSSAU系統中進行相關分析前,首先要考慮找出異常值、剔除異常值,否則這些異常值會影響之後數據分析的結果,甚至得到完全相反的結論。
2、繪制箱形圖
我們借助箱形圖來識别數據中是否存在異常值,繪制方法如下:
①上傳數據後,在SPSSAU中的【可視化】闆塊選擇【箱線圖】
②因為想要看【成績】這個定量變量是否存在異常值,所以将【成績】變量放入對應分析框中,點擊【開始分析】即可得到箱形圖。
③輸出箱形圖
箱形圖中的異常值會以“圓點”的形式進行展示,從圖中可以很直觀的看到,成績中存在2個異常值,下一步就可以考慮去處理這些異常值了 。
(2)比較不同類别的數據分布情況
箱形圖還很适合非參數檢驗時查看不同類别X時,Y的數據分布情況,由于它使用的是中位數和四分位數等描述性統計量,比平均數和标準差更為穩健。
還是上面的例子,我們同樣可以使用箱線圖來比較不同性别時,成績的分布情況。可以将【性别】定類變量放入定類分析框中,将【成績】變量放入定量分析框中,點擊【開始分析】:
輸出箱線圖:
圖形解讀:
要将性别分開比較,可以發現女生的中位數比男生高(分别是88,80),另外女生的箱線圖中,中間橫線也就是中位數沒有在箱子的中間,而是在偏上方的位置,說明有異常值拉低了平均值。另外主要看中間的箱子,可以看出,女生的成績比男生更集中。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!