當你在做數據總結分析,或者科研調查分析,甚至季度年度總結彙報,需要查看數據的分布情況以及是否有異常情況來形成結論輔助進一步分析時,那麼哪種圖表能夠清晰直觀地展現出這一信息呢?
答案隻有一個,那就是...箱線圖!
什麼是箱線圖箱線圖,又名為盒須圖,盒式圖,通常用于展示一組數據的分布情況,因為主題形狀像一個箱子,所以得名箱線圖。它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。
箱線圖是由美國著名的統計學家約翰.圖基發明的,它主要展現了一組數據的幾個關鍵數據點,包括最大值、最小值、中位數以及上下兩個4分位數。也就是說,無論一組數據的量有多少,它隻會在計算後,獲取這幾個計算後的數據來作為數據點,來繪制箱線圖。
在箱線圖中,箱子的中間有一條線,代表了數據的中位數。箱子的上下底,分别是數據的上四分位數(Q3)和下四分位數(Q1),這意味着箱體包含了50%的數據。因此,箱子的高度在一定程度上反映了數據的波動程度,上下邊緣則代表了該組數據的最大值和最小值。有時候箱子外部會有一些點,可以理解為數據中的“異常值”。
我們先看一個簡單的箱線圖應用,大家就應該很好理解了。分析不同學年、不同科目的學生成績是箱線圖的常見應用場景,下圖中我們可以看到學生的英語成績相對其它科目普遍較好,而數學則大部分都在80分以下。
所以要快速理解箱線圖,那麼一定要了解這2個概念:
四分位數
一組數據按照從小到大順序排列後,把該組數據四等分的數,稱為四分位數。第一四分位數 (Q1)、第二四分位數 (Q2,也叫“中位數”)和第三四分位數 (Q3)分别等于該樣本中所有數值由小到大排列後第25%、第50%和第75%的數字。第三四分位數與第一四分位數的差距又稱四分位距(interquartile range, IQR)。
偏态
與正态分布相對,指的是非對稱分布的偏斜狀态。在統計學上,衆數和平均數之差可作為分配偏态的指标之一:如平均數大于衆數,稱為正偏态(或右偏态);相反,則稱為負偏态(或左偏态)。
箱線圖的價值箱線圖包含的元素雖然有點複雜,但也正因為如此,它擁有許多獨特的功能:
箱線圖用來捕獲一組數據中的異常值,在數據整理的過程中,異常值帶來的不良影響是巨大的,我們需要額外重視異常值這一數據,異常值被定義為小于Q1-1.5IQR或大于Q3 1.5IQR的值,而箱線圖會将這一部分的值額外展現出來,突出異常值的特異性。
通過箱線圖的形狀和異常值的分布,我們可以大緻的觀測出這一組數據的偏态和尾重,然後通過對比标準正态分布,來分析數據形狀的出現原因。
将幾批數據放在同一個數軸上,可以直觀的看出幾批數據之間中位數、尾長、異常值、分布區間等的不同,用于質量管理、人事測評、探索性數據分析等統計分析活動中,有助于分析過程的簡便快捷,其作用顯而易見。
憑借着這些“獨門絕技”,箱線圖在使用場景上也很不一般,最常見的是用于質量管理、人事測評、探索性數據分析等統計分析活動。
如何制作箱線圖通常我們制作箱線圖的時候,是一個很大的工作量,需要先對數據統計分析,得出對應點之後再進行繪制,在繪制過程中,處理數據可能就花費大量時間,這裡我們使用億信ABI來進行箱線圖的繪制工作,可以大大的減少我們的工作。
第一步,準備數據,我們隻需要準備好明細數據即可,無需再對數據進行各個對應點的計算,将數據建立成主題表後,即可直接應用系統箱線圖。數據格式可全面兼容EXCEL表、數據庫表、CSV文件、SQL語句等等。
建好主題表後,新建一個數據分析,并使用數據建立表格:
然後拖入統計圖組件,選擇箱線圖,并雙擊打開設置界面,進行數據設置。
設置完成之後,點擊計算,箱線圖就繪制完成了。
我們這裡的表的數據是一個汽車的成本價格和銷售價格随月份的變化表,這邊設置了兩種數據作為對比,一種是汽車的成本數據,一種是銷售價格數據。通過兩種數據的箱線圖對比,我們可以明顯看出,在這個時間段的數據中,成本價格有一個很明顯的特異點,而且是低特異點,這就說明這個時間段内有某個點的成本價格要明顯低于其他時間點的成本,可以從此入手來進行進一步分析。另外再從中間的長方塊的面積來看,銷售價格的長方塊面積明顯比成本價格的小,說明銷售價格在這個時間段内都很穩定。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!