趣味談數據分析-tft每日頭條

趣味談數據分析

科技更新时间:2026-07-17 18:23:23

探索性數據分析（EDA）是了解數據集的關鍵步驟。在EDA中可以執行各種步驟，下文中會我會介紹 4 個主要步驟。其中數據集來自帕爾默群島企鵝數據。數據分析優質社群，等你加入哦~

一、仔細檢查數據

這一步的目的是找出數據集的變量和範圍。它回答諸如"此數據集是否足夠大？"或“它包含多少個特征或行？"等問題。加載數據集後，使用 head（） 函數檢查前五行将是了解數據集結構的良好開端，具體操作如下所示。

import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') #Loading the dataset penguins_size = pd.read_csv('penguins_size.csv', sep = ",") penguins_size.head()

趣味談數據分析（九道門如何執行探索性數據分析）1

print("Shape is: ", penguins_size.shape)

趣味談數據分析（九道門如何執行探索性數據分析）2

從這裡得出數據集的範圍為（344，7），這意味着存在7個特征和344行，這表示數據集不夠大。為了可視化特征的數據類型，可以使用 info（） 函數，如下所示。結果顯示，物種、島嶼和性别是目标，其餘特征是浮動變量。使用 dtypes 也是了解列的數據類型的一種替代方法。

penguins_size.info()

趣味談數據分析（九道門如何執行探索性數據分析）3

penguins_size.dtypes

趣味談數據分析（九道門如何執行探索性數據分析）4

二、數據清理

查找缺失值、删除重複項等是探索性數據分析的關鍵步驟。這些值可能會導緻我們的模型最終得出錯誤的結論。僅調查 isnull（）是不夠的。例如，在包含心率特征的數據集中，該特征的值不能為 0。在這種情況下，0 也是一個缺失值，需要處理。

有多種方法可以處理數據的缺失值，例如删除包含缺失值的行（如果數據集足夠大并且缺失值的數量不是太多，這是一個選項），插補方法（特征的平均值/中位數）等。

penguins_size.isnull().sum()

趣味談數據分析（九道門如何執行探索性數據分析）5

如上所示，除島嶼和物種外的所有特征在此數據集中都包含缺失值。因為數據集非常小，所以我選擇将浮點特征的缺失值與相應特征的均值相結合。

penguins_size.value_counts(["sex"])

趣味談數據分析（九道門如何執行探索性數據分析）6

penguins_size['sex'] = penguins_size['sex'].fillna('MALE')

對于企鵝的性别，在檢查了雌性和雄性值的計數後，将考慮最常見的值，在這種情況下，缺失值将用 "MALE" 進行估算。如上所示，另一個值為"."，必須将其歸因或丢棄。在所有缺失值被插補或删除後，我們再次使用 isna （） 函數進行檢查，确定沒有遺漏值。

penguins_size.drop(axis = 0, inplace = True, index = 336) penguins_size.isna().sum()

趣味談數據分析（九道門如何執行探索性數據分析）7

最後，對于這個部分，需要檢查是否存在任何重複行。

duplicated = penguins_size.duplicated() print(duplicated.sum())

三、統計洞察

這也是理解數據的一部分。處理缺失值後，可以使用 describe（） 函數來獲取數據的平均值、最大值、最小值和标準偏差等信息。此方法還可用于檢測缺失值，例如，如果特征值的最小值在不應為 0 的地方為 0，則 describe（）函數有助于處理缺失值。

penguins_size.describe()

趣味談數據分析（九道門如何執行探索性數據分析）8

通過使用 value_counts（） 函數，可以計算對象的唯一值。此外，每個物種的體重平均值可以通過使用 groupby（）函數找到。對于連續特征，此函數在分類和觀察數據方面非常有用。

penguins_size['species'].value_counts()

趣味談數據分析（九道門如何執行探索性數據分析）9

# Find body mass mean for each species. mean_bodymass = penguins_size.groupby('species')['body_mass_g'].mean() mean_bodymass

趣味談數據分析（九道門如何執行探索性數據分析）10

四、數據可視化

為了更好地可視化數據集，可以使用各種繪圖技術，在下文中簡單介紹幾個。有些圖在可視化分類數據方面效果更好，有些圖則更适合數值數據的可視化。

• 箱形圖

通過顯示數據分布來檢查異常值或理解分類特征與連續特征之間關系的好方法。

如下圖所示，由于沒有數據點分别高于或低于最大值和最小值，因此未檢測到異常值。此外，可以很容易地找到數據點的中位數，因為通過框内的水平線代表的就是中位數。

#Relationship of the culmen length and sex of the penguins. fig = plt.figure(figsize=(5,8)) ax= sns.boxplot(x = penguins_size.sex, y=penguins_size['culmen_length_mm'],orient="v", palette = "cividis") plt.title('Culmen_length_mm') plt.show()

趣味談數據分析（九道門如何執行探索性數據分析）11

• 直方圖

直方圖用于描述頻率分布。

#Shows us frequency distribution. fig,axs = plt.subplots(1,4,figsize=(20,6)) axs[0].hist(penguins_size.culmen_depth_mm) axs[0].set_title('culmen_depth_mm') axs[0].set_ylabel('Frequency') axs[1].hist(penguins_size.culmen_length_mm) axs[1].set_title('culmen_length_mm') axs[2].hist(penguins_size.flipper_length_mm) axs[2].set_title('flipper_length_mm') axs[3].hist(penguins_size.body_mass_g) axs[3].set_title('body_mass_g') plt.show()

趣味談數據分析（九道門如何執行探索性數據分析）12

此外，kdeplot 是可視化數據分布的另一種方法。此圖實際上類似于直方圖，但不是将值放入條柱中，而是繪制一條曲線。

#Used for visualizing the probability density of a continuous var. sns.kdeplot(penguins_size.flipper_length_mm,color='Cyan') plt.show()

趣味談數據分析（九道門如何執行探索性數據分析）13

• 條形圖

在條形圖中，x 軸表示分類變量， y 軸表示數值變量。這就是為什麼條形圖描繪了這兩個變量之間的關系。

plt.figure(figsize=(8,5)) colors = ["cyan","lightblue", "darkblue"] sns.barplot(x =penguins_size['island'], y = penguins_size['body_mass_g'], palette = colors) plt.title('Body Mass of Penguins for different Islands') plt.show()

趣味談數據分析（九道門如何執行探索性數據分析）14

通過使用 pandas 函數交叉表，可以分析兩個或多個變量之間的關系。作為說明，下面的條形圖強調了生活在特定島嶼中的特定物種的企鵝數量之間的關系。

pd.crosstab(penguins_size['island'], penguins_size['species']).plot.bar(color=('DarkBlue', 'LightBlue', 'Teal')) plt.tight_layout()

趣味談數據分析（九道門如何執行探索性數據分析）15

• 小提琴圖

小提琴圖描述的是數據集的概率密度。由于兩個不同的類别可能具有相同的平均值，在這種情況下觀察小提琴圖會更有用。

在下面的小提琴圖中，夢幻島企鵝體重的平均值在3000到4000克之間，而在比斯科島企鵝體重的平均值大約在4500到5500克之間。

sns.violinplot(x = 'island',y = 'body_mass_g',data = penguins_size, palette="YlOrRd_r") plt.title('Violin plot')

趣味談數據分析（九道門如何執行探索性數據分析）16

想要完整代碼的同學可以留言獲取哦~

趣味談數據分析（九道門如何執行探索性數據分析）17

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技想要提高免疫力遵循這四個守則
人體的免疫力維持平衡狀态非常重要，不僅會影響顔值，也會影響整個人的身體健康狀況。大家經常說的身體情況，比如有的人喜歡感冒，經常生個小病，其實就是身體抵抗力的問題導緻的。對于所有的人來說，保持身體的健康才是重要的事情。免疫力下降會給我們的身體... 2022-12-06
科技大牌香水哪款好用點
面對香水，女生有着10086個購買理由哈哈哈~今天我就再增加一個理由~10款經典大牌1、BYREDO無人區玫瑰聽名字就很好聽！這款是落落大方的木質玫瑰，帶着特有的淡甜、幽辣、松木混合，很清香、很舒服的味道。2、JoMalone英國梨和小蒼蘭... 2023-01-15
科技機械硬盤什麼牌子性價比高
一提到機械硬盤想必大家都很熟悉，它最主要的作用就是儲存數據。大多數的用戶都有這麼一個習慣，就是喜歡把電腦的系統和一些常用的軟件安裝在固态硬盤上，這樣電腦加載、讀取數據、打開軟件的速度會更快。而一些占用空間大的資料，比如遊戲、視頻、照片等這些... 2023-02-21
科技大逃殺需要的配置
FocusHomeInteractive與VostokGames昨日公布了他們末世背景大逃殺FPS遊戲《群狼逃殺(FearTheWolves)》的PC配置要求。《群狼逃殺》是一款支持100人的大逃殺遊戲，遊戲既可以單人撸，也可以組隊。根據官... 2023-03-07
科技攻速流納爾
文|煎蛋科技日前，OPPO在深圳召開了主題為「豐沛心靈一路同行」，聚焦構建開放生态。在ODC22開發者大會上，為我們帶來了全新的ColorOS13系統，以及傳聞中的OPPO自研的潘塔納爾智慧跨端系統。目标是打破不同品牌智能設備、系統和服務之... 2022-11-22
科技卡普空街機
廠商起訴模拟器開發者容易，模拟器開發者起訴廠商可就難了。幾天前，卡普空宣布将在今年10月25日上市一台包含《街霸2》、《快打旋風》和《1944》等16款經典遊戲，還帶兩個全尺寸街機搖杆的懷舊主機，成為了現在這股懷舊主機風潮的最新參與者。現在... 2022-12-09
科技 vivoz5i手機忘記密碼怎麼辦
vivoz5i手機忘記密碼怎麼辦?手機在關機狀态、不插USB線的情況下，同時長按音量上鍵和電源鍵，直到顯示開機logo界面時，松開電源鍵；，下面我們就來聊聊關于vivoz5i手機忘記密碼怎麼辦?接下來我們就一起去了解一下吧!vivoz5i手... 2022-06-22
科技目前國内的手機品牌有哪些
你知道的手機品牌有哪些，其實還有非常多的手機品牌你是聽都沒有聽說過的呢，不信，你看。你認識多少個手機品牌？來源：唯唯科技網, 2023-02-12
科技投标文件必備内容
标書的排版和裝訂相當于标書的門面，門面功夫做的不到位，裝訂不美觀，排版不協調，就完全喪失了繼續閱讀的欲望。第一印象分不及格，想要中标就難了，那麼如何才能做出高逼格的投标書呢？01、标書頁面排版要求1、頁邊距：左、右邊距為2.5cm，上邊距為... 2023-01-10
科技我的世界手機版離譜種子
作者：由editor讓我們研究一些功能。我們不會在這裡涵蓋所有内容，因為它是如此大的mod，但讓我先來簡單介紹一下。桶裝堆肥在橡木桶中，您可以放置樹苗，面包和小麥。随着時間的流逝，放入其中的東西會堆肥，最終變成泥土塊，可以很方便地進行建造和... 2023-02-18
科技防雷防大風
來源：【人民鐵道網】安海灣特大橋合龍全貌。張貴峰攝“昆侖号”架設預制箱梁。楊存興攝福廈高鐵作為國内首條跨海高鐵，福廈高鐵正線全長277.42公裡，全線共有104座橋梁、45座隧道，先後跨越湄洲灣、泉州灣、安海灣三個海灣，堪稱“海上奇觀博物館... 2022-11-06
科技如何在設置中讓孩子不能玩手機
暑期一到，孩子開心，爸媽煩惱。如今電子産品成為了每個家庭的必備，特别是智能手機，不給孩子玩又不現實，孩子容易鬧情緒，給TA玩又不放心，擔心沉迷手機無法自拔，影響健康、學業，甚至還會發生巨額打賞主播、充值遊戲等各種麻煩事。面對這種難題，家長是... 2022-12-05
科技為什麼玩手機時間長了手痛
古時候，人們日出而作、日落而息；然後随着電燈的發明，我們會在晚上也照常工作、學習；繼而随着電視機、電腦的出現，夜間刷劇、打遊戲成了不少人的消遣方式；再後來，手機出現了，它在剛開始隻是被作為一種簡單的通訊工具，大大縮短了人與人之間的距離，而現... 2022-11-13
科技佳能雲打印隻能一個設備綁定嗎
2016年12月5日，佳能（中國）有限公司（以下簡稱：佳能（中國））專門針對中國市場推出自助手機支付打印服務——雲佳印，推進打印服務覆蓋更多公共場所，使更多用戶能夠根據需求實現随時随地、更加便捷的自助打印。通過佳能“雲佳印”自助打印服務，用... 2023-01-21
科技防護等級ip44和ip68差别
防護等級ip44和ip68差别?近年來，防水技術已成為大趨勢但是，你怎樣來辨别設備的防護程度呢？大多數設備使用IP或ATM等級，每個等級又代表不同的防護水準，下面我們從IP防護等級開始介紹，我來為大家科普一下關于防護等級ip44和ip68差... 2022-10-08
科技高通soc是啥
相信絕大多數人都知道，一部好的智能手機，其内部必定會擁有一個強大的處理器。譬如像麒麟、骁龍、天玑等這類的處理器，也被人們喻為是智能手機的大腦或者心髒。而讓我們耳熟能詳的這些處理器，其實也就是專業人士口中常稱的SoC；當然，SoC也是有高、中... 2022-12-26
科技電影素材網站免費無水印
電影素材網站免費無水印?1、Vimeo這個Vimeo組有258個免費視頻可供選擇，全部由Vimeo用戶PhilFried創建，今天小編就來聊一聊關于電影素材網站免費無水印?接下來我們就一起去研究一下吧!電影素材網站免費無水印1、Vimeo這... 2022-11-08
科技 windows進入bios頁面
1、查看BIOS的版本信息打開windows的dos窗口欄，輸入：systeminfo|more2、查看BMC的版本信息windows中安裝IPMITools工具，輸入ipmitool.exemcinfo3、浪潮的BIOS和微碼信息情況, 2023-02-02
科技我們怎麼看待錘子手機
7月26日，最近熱鬧不段的錘子再度出狀況。在網易評論中，有匿名富士康的人大爆錘子設計缺陷内幕。羅永浩随即也微博回應是謠言，錘子真有設計問題嗎？我們來猜想一下。一、所謂的錘子謠言這條羅永浩回複稱為謠言的内容如下：你咋還不好好的說實話呢。你為什... 2022-10-27
科技減肥就是個大工程
減肥是個系統工程，以前人們很少關注到心理這個層面。從現在開始，你要懂得，肥胖很多時候是個“心病”，調整心态，培養健康的心理和行為，才是減肥的正确開啟模式。改變生活方式一樣難免要有所犧牲，并不是所有人都适合。一些人改變飲食之所以如此艱難，是因... 2023-02-23
科技手機長期不貼膜會怎樣
夏天來了，又有一部分人開始糾結手機到底應不應該貼膜戴殼了，因為他們看到身邊已經有不少人把手機殼摘了并且把手機膜也揭掉了。究其原因，是因為夏天室外炎熱的高溫會讓手機内部溫度升高，而殼膜就像是棉襖一樣把手機捂住，影響手機散熱，久而久之就會對電池... 2023-01-04
科技玩手機會導緻視網膜動脈阻塞嗎
來源：江西衛生健康作為當代早八打工人每天搬磚回到家隻想躺在軟乎乎的床上舉着手機追劇吃瓜這應該是不少人的“睡前儀式”萬一不小心手滑悲劇就有可能上演……疼生疼炒雞疼隔着屏幕都覺得疼……光是疼倒也沒啥如果不小心砸到眼睛，你可能會失明！這不，最近有... 2023-02-13
科技 win10備份好的系統還能用嗎
有不少深度技術的朋友都升級win1021h1版本的系統了，但是安裝好軟件工具以後，問小編如何備份系統。其實，我們一般可以通過ghost來備份系統，如果嫌麻煩，我們可以使用win10系統自帶的設置備份來弄一下，今天深度小編就來阜南縣w10系統... 2023-02-18
科技女子跟老公吵架被扔高速
昨天看到一則新聞：4月5日江西贛州，民警接到報警稱，有一名女子正在高速應急車道内行走。民警趕往現場後得知該女子是與丈夫吵架後，被丈夫丢在高速公路上，已經獨自走了一個小時。女子告訴民警丈夫對其動了手，還帶走了她的手機。了解事情經過後，民警決定... 2023-01-08
科技收費公路車輛通行費分類标準
收費公路車輛通行費分類标準?【交通運輸部：手機地圖查詢高速通行費功能即将上線】針對一些貨車司機希望能夠用手機實現地圖導航計費功能，了解不同路徑收費金額的需求，交通運輸部新聞發言人吳春耕28日表示，已經關注到廣大公衆對出行收費顯示提醒的需求，... 2022-12-23
科技電腦配置更新一直不動怎麼辦
電腦配置更新一直不動怎麼辦?重新啟動電腦一啟動就不停的按F8選擇進入安全模式一般在進入安全模式的狀态等待不會卡住，這個是個人實測的經驗等待不會超過20分鐘然後會進入安全模式，隻要再次重啟電腦就能正常進入到系統裡面，下面我們就來說一說關于電腦... 2022-06-21
科技折紙教學效果和反思
1.折紙自身教學資源的進一步提升a.對紙張的進一步開發在折紙的教學過程中，折痕線是非常重要的教學痕迹，為了更好地呈現折紙中的數學原理，建議可以用有網格的折紙，這樣折痕線的位置就方便考察，有些操作也就能更方便，更精确一些。比如，在讨論“決定一... 2022-12-28
科技貴州女子被拐32年
“我的媽媽，是一個怪人。”自打李新梅有記憶起，她就老這麼想。首先，媽媽沒有名字。不論是爸爸，還是其他人，總是“喂”“哎”這樣叫她，有時候甚至什麼都不叫，隻拍拍她的肩膀，就算是打招呼了。李新梅偷偷翻看過媽媽的身份證，上面寫的名字叫“李玉榮”，... 2023-02-17
科技安卓系統手機常用軟件
360省電王360省電王可以精準地預測手機電量情況，幫助你精打細算，合理分配剩餘電量使用。這款應用最棒的特色就是在你禁用諸如WiFi和藍牙功能後，能估算出預計可用時間。它還可以提醒你什麼時候開始充電，充電可用時間，系統信息，以及大量的優化技... 2023-01-25
科技怎麼查看電腦電源是否壞
電腦開不了，一般是由于電源損壞而引起的，那麼我們如何測試電源好壞呢?下面電腦知識學習網小編教大家兩種快速測試電源好壞的方法!方法一：短路測試法首先你準備一條短的電線。兩邊露頭《就是露電線的銅絲》。你找到一條綠色線《隻有一條綠色線》，另一排有... 2023-02-02

tft每日頭條

> 科技

> 趣味談數據分析

趣味談數據分析

相关科技资讯推荐

热门科技资讯推荐

网友关注