在做數據分析時,需要用到各式各樣的圖表。柱狀圖、散點圖、甘特圖…不同圖表該怎麼用呢?
先看這張思維導圖,能夠幫助大家更快了解各類型圖表的數據特點。
基于功能和屬性:可将圖表分為四大類,具體見下圖:
基于使用場景,則可以分為兩大類——日常需求、專業需求。
01 日常需求先來看看日常工作生活中都會使用哪些圖表,假設一個場景:幾種水果的各個維度對比。
上面這個數據分析圖表是用這個模闆套出來的,按需自取>> 解決方案中心,全行業解決方案,解決方案園地-簡道雲
柱狀圖柱狀圖是最常見的圖表類型,也最容易解讀。
它的适用場合是二維數據集(每個數據點包括兩個值,即X和Y),但隻有一個維度需要比較的情況。
例如,如下圖所示的柱形圖就表示了一組二維數據,【類型】和【單價】就是它的兩個維度,但隻需要比較【單價】這一個維度。
柱狀圖利用柱子的高度,反映數據的差異。肉眼對高度差異很敏感,辨識效果非常好。其局限在于隻适用中小規模的數據集。
折線圖折線圖也是常見的圖表類型,它是将同一數據系列的數據點在圖上用直線連接起來,以等間隔顯示數據的變化趨勢。
同樣結合上面額柱狀圖,我們加上折線表示【單價】就能很清楚的觀察出價格的變化趨勢:
折線圖可以顯示随時間而變化的連續數據(根據常用比例設置),它強調的是數據的時間性和變動率,因此非常适用于顯示在相等時間間隔下數據的變化趨勢。
面積圖面積圖與折線圖類似,也可以顯示多組數據系列,隻是将連線與分類軸之間用圖案填充,主要用于表現數據的趨勢。
但不同的是:折線圖隻能單純地反映每個樣本的變化趨勢,如水果的價格變化趨勢;而面積圖除了可以反映每個樣本的變化趨勢外,還可以顯示總體數據的變化趨勢,即面積,如下圖所示:
餅圖餅圖雖然也是常用的圖表類型,但在實際應用中應盡量避免使用餅圖,因為肉眼對面積的大小不敏感。
例如,還是上面柱狀圖的同一組數據,使用餅圖和柱形圖來顯示,效果就沒有那麼明顯了:
一般情況下會用柱狀圖替代餅圖。但是有一個例外,就是反映某個部分占整體的比重,這種情況下,餅圖會先将某個數據系列中的單獨數據轉為數據系列總和的百分比,然後按照百分比繪制在一個圓形上,數據點之間用不同的圖案填充。
另外餅圖中還包含了圓環圖,來表現一個數據在整體數據中的大小比例。
XY散點圖XY 散點圖主要用來顯示單個或多個數據系列中各數值之間的相互關系,或者将兩組數據繪制為XY坐标的一個系列。
散點圖有兩個數值軸,沿橫坐标軸(X軸)方向顯示一組數值數據,沿縱坐标軸(Y軸)方向顯示另一組數值數據。
一般情況下,散點圖用這些數值構成多個坐标點,通過觀察坐标點的分布,即可判斷變量間是否存在關聯關系,以及相關關系的強度。
散點圖适用于三維數據集,但其中隻有兩維需要比較(為了識别第三維,可以為每個點加上文字标示,或者不同顔色)。
雷達圖雷達圖,又稱為戴布拉圖、蜘蛛網圖。适用于多維數據(四維以上),且每個維度必須可以排序(國籍就不可以排序)。但是,它有一個局限,就是數據點最多6個,否則無法辨别,因此适用場合有限。
它用于顯示獨立數據系列之間及某個特定系列與其他系列的整體關系。每個分類都擁有自己的數值坐标軸,這些坐标軸同中心點向外輻射,并由折線将同一系列中的值連接起來,如下圖所示。
需要注意的時候,用戶不熟悉雷達圖,解讀有困難。使用時盡量加上說明,減輕解讀負擔。
02 專業需求除了日常工作使用,還有一些專業性更強的數據分析圖表,比如:
熱力圖以特殊高亮的形式顯示訪客熱衷的頁面區域和訪客所在的地理區域的圖示。可以直觀清楚地看到頁面上每一個區域的訪客興趣焦點。
但不适用于數值字段是彙總值,需要連續數值數據分布。
矩形樹圖展現同一層級的不同分類的占比情況,還可以同一個分類下子級的占比情況,比如商品品類等。适用于展示父子層級占比的樹形數據。
但是不适合展現不同層級的數據,比如組織架構圖,每個分類不适合放在一起看占比情況。
甘特圖甘特圖是項目/任務管理中非常常用的一種圖表類型,通過活動列表和時間刻度表示出特定項目的順序與持續時間。
甘特圖參考模闆>>解決方案中心,全行業解決方案,解決方案園地-簡道雲
詞雲展現文本信息,對出現頻率較高的“關鍵詞”予以視覺上的突出,比如用戶畫像的标簽。适用于在大量文本中提取關鍵詞。
不适用于數據太少或數據區分度不大的文本。
漏鬥圖用梯形面積表示某個環節業務量與上一個環節之間的差異。适用于有固定流程并且環節較多的分析,可以直觀地顯示轉化率和流失率。
缺點是無序的類别或者沒有流程關系的變量。
瀑布圖采用絕對值與相對值結合的方式,展示各成分分布構成情況,比如各項生活開支的占比情況。适用于展示數據的累計變化過程。
局限:各類别數據差别太大則難以比較。
桑葚圖一種特定類型的流程圖,圖中延伸的分支的寬度對應數據流量的大小,起始流量總和始終與結束流量總和保持平衡。比如能量流動等。可用來表示數據的流向。
不适用于邊的起始流量和結束流量不同的場景。比如使用手機的品牌變化。
箱線圖是利用數據中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述數據的一種方法。可用來展示一組數據分散情況,特别用于對幾個樣本的比較。
不足:對于大數據量,反應的形狀信息更加模糊。
最後為大家整理了一份個圖表的維度和注意點:
以上。關注@簡道雲,更多幹貨等你!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!