pandas怎麼統計重複數據-tft每日頭條

pandas怎麼統計重複數據

科技更新时间:2026-08-02 23:33:17

作者：俊欣

來源：關于數據分析與可視化

大家好，我是俊欣，本篇文章應該算得上是2022年的第一篇原創了，抱歉，元旦期間小編有點偷懶。

今天小編來給大家講一下Pandas模塊當中的數據統計與排序，說到具體的就是value_counts()方法以及sort_values()方法。

value_counts()方法，顧名思義，主要是用于計算各個類别出現的次數的，而sort_values()方法則是對數值來進行排序，當然除了這些，還有很多大家不知道的衍生的功能等待被挖掘，下面小編就帶大家一個一個的說過去。

導入模塊并且讀取數據庫

我們這次用到的數據集是“非常有名”的泰坦尼克号的數據集，該數據源能夠在很多平台上都能夠找得到

import pandas as pd df = pd.read_csv("titanic_train.csv") df.head()

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）1

常規的用法

首先我們來看一下常規的用法，代碼如下

df['Embarked'].value_counts()

output

S 644 C 168 Q 77 Name: Embarked, dtype: int64

下面我們簡單來介紹一下value_counts()方法當中的參數，

DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)

常用到參數的具體解釋為：

subset: 表示根據什麼字段或者索引來進行統計分析
normalize: 返回的是比例而不是頻次
ascending: 降序還是升序來排
dropna: 是否需要包含有空值的行

對數值進行排序

上面返回的結果是按照從大到小來進行排序的，當然我們也可以反過來，從小到大來進行排序，代碼如下

df['Embarked'].value_counts(ascending=True)

output

Q 77 C 168 S 644 Name: Embarked, dtype: int64

對索引的字母進行排序

同時我們也可以對索引，按照字母表的順序來進行排序，代碼如下

df['Embarked'].value_counts(ascending=True).sort_index(ascending=True)

output

C 168 Q 77 S 644 Name: Embarked, dtype: int64

當中的ascending=True指的是升序排序

包含對空值的統計

默認的是value_counts()方法不會對空值進行統計，那要是我們也希望對空值進行統計的話，就可以加上dropna參數，代碼如下

df['Embarked'].value_counts(dropna=False)

output

S 644 C 168 Q 77 NaN 2 Name: Embarked, dtype: int64

百分比式的數據統計

我們可以将數值的統計轉化成百分比式的統計，可以更加直觀地看到每一個類别的占比，代碼如下

df['Embarked'].value_counts(normalize=True)

output

S 0.724409 C 0.188976 Q 0.086614 Name: Embarked, dtype: float64

要是我們希望對能夠在後面加上一個百分比的符号，則需要在Pandas中加以設置，對數據的展示加以設置，代碼如下

pd.set_option('display.float_format', '{:.2%}'.format) df['Embarked'].value_counts(normalize = True)

output

S 72.44% C 18.90% Q 8.66% Name: Embarked, dtype: float64

當然除此之外，我們還可以這麼來做，代碼如下

df['Embarked'].value_counts(normalize = True).to_frame().style.format('{:.2%}')

output

Embarked S 72.44% C 18.90% Q 8.66%

連續型數據分箱

和Pandas模塊當中的cut()方法相類似的在于，我們這裡也可以将連續型數據進行分箱然後再來統計，代碼如下

df['Fare'].value_counts(bins=3)

output

(-0.513, 170.776] 871 (170.776, 341.553] 17 (341.553, 512.329] 3 Name: Fare, dtype: int64

我們将Fare這一列同等份的分成3組然後再來進行統計，當然我們也可以自定義每一個分組的上限與下限，代碼如下

df['Fare'].value_counts(bins=[-1, 20, 100, 550])

output

(-1.001, 20.0] 515 (20.0, 100.0] 323 (100.0, 550.0] 53 Name: Fare, dtype: int64

分組再統計

pandas模塊當中的groupby()方法允許對數據集進行分組，它也可以和value_counts()方法聯用更好地來進行統計分析，代碼如下

df.groupby('Embarked')['Sex'].value_counts()

output

Embarked Sex C male 95 female 73 Q male 41 female 36 S male 441 female 203 Name: Sex, dtype: int64

上面的代碼是針對“Embarked”這一類别下的“Sex”特征進行分組，然後再進一步進行數據的統計分析，當然出來的結果是Series數據結構，要是我們想讓Series的數據結果編程DataFrame數據結構，可以這麼來做，

df.groupby('Embarked')['Sex'].value_counts().to_frame()

數據集的排序

下面我們來談一下數據的排序，主要用到的是sort_values()方法，例如我們根據“年齡”這一列來進行排序，排序的方式為降序排，代碼如下

df.sort_values("Age", ascending = False).head(10)

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）2

對行索引重新排序

我們看到排序過之後的DataFrame數據集行索引依然沒有變，我們希望行索引依然可以是從0開始依次的遞增，就可以這麼來做，代碼如下

df.sort_values("Age", ascending = False, ignore_index = True).head(10)

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）3

下面我們簡單來介紹一下sort_values()方法當中的參數

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', # last，first；默認是last ignore_index=False, key=None)

常用到參數的具體解釋為：

by: 表示根據什麼字段或者索引來進行排序，可以是一個或者是多個
axis: 是水平方向排序還是垂直方向排序，默認是垂直方向
ascending: 排序方式，是升序還是降序來排
inplace: 是生成新的DataFrame還是在原有的基礎上進行修改
kind: 所用到的排序的算法，有快排quicksort或者是歸并排序mergesort、堆排序heapsort等等
ignore_index: 是否對行索引進行重新的排序

對多個字段的排序

我們還可以對多個字段進行排序，代碼如下

df.sort_values(["Age", "Fare"], ascending = False).head(10)

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）4

同時我們也可以對不同的字段指定不同的排序方式，如下

df.sort_values(["Age", "Fare"], ascending = [False, True]).head(10)

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）5

我們可以看到在“Age”一樣的情況下，“Fare”字段是按照升序的順序來排的

自定義排序

我們可以自定義一個函數方法，然後運用在sort_values()方法當中，讓其按照自己寫的方法來排序，我們看如下的這組數據

df = pd.DataFrame({ 'product': ['keyboard', 'mouse', 'desk', 'monitor', 'chair'], 'category': ['C', 'C', 'O', 'C', 'O'], 'year': [2002, 2002, 2005, 2001, 2003], 'cost': ['$52', '$24', '$250', '$500', '$150'], 'promotion_time': ['20hr', '30hr', '20hr', '20hr', '2hr'], })

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）6

當中的“cost”這一列帶有美元符号“$”，因此就會幹擾排序的正常進行，我們使用lambda方法自定義一個函數方法運用在sort_value()當中

df.sort_values( 'cost', key=lambda val: val.str.replace('$', '').astype('float64') )

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）7

當然我們還可以自定義一個更加複雜一點的函數，并且運用在sort_values()方法當中，代碼如下

def sort_by_cost_time(x): if x.name == 'cost': return x.str.replace('$', '').astype('float64') elif x.name == 'promotion_time': return x.str.replace('hr', '').astype('int') else: return x df.sort_values( ['year', 'promotion_time', 'cost'], key=sort_by_cost_time )

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）8

還有另外一種情況，例如我們遇到衣服的尺碼，XS碼、S碼、M碼、L碼又或者是月份，Jan、Feb、Mar、Apr等等，需要我們自己去定義大小，這個時候我們需要用到的是CategoricalDtype

cat_size_order = CategoricalDtype( ['XS', 'S', 'M', 'L', 'XL'], ordered=True ) cat_size_order

output

CategoricalDtype(categories=['XS', 'S', 'M', 'L', 'XL'], ordered=True)

于是針對下面的數據

df = pd.DataFrame({ 'cloth_id': [1001, 1002, 1003, 1004, 1005, 1006], 'size': ['S', 'XL', 'M', 'XS', 'L', 'S'], })

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）9

我們将事先定義好的順序應用到該數據集當中，代碼如下

df['size'] = df['size'].astype(cat_size_order) df.sort_values('size')

output

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）10

先通過astype()來轉換數據類型，然後再進行排序

pandas怎麼統計重複數據（20個案例詳解Pandas當中的數據統計分析與排序）11

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技無線話筒怎麼連接音響
1、首先把接收器的線插入接收器上的輸出孔，和話筒接入孔一樣的。2、把另一端接入功放話筒音頻口，音頻口... 2023-07-20
科技帶寶寶出行必備物品清單
第一、小瓶罐。小瓶罐的形狀，大小有很多種。可以裝藥膏或乳液，以備不時之需。戴的稍微大的盒子還可以裝葡萄幹、南瓜子等零食。十分方便。第二、毛巾攜帶筒。可以帶自己的毛巾和洗漱用品，比外面的洗漱用品好用幹淨得多。第三、故事書和小玩具。寶寶出外時難免會覺得無聊，故事書和小玩具就成了寶寶很好的消遣的工具。而且也可以避免讓寶寶吵鬧。第四、輕便的雨衣，可準備一兩件，以備不時之需。臨時遇到下雨天氣，就給寶寶穿上， 2023-07-19
科技手機有哪些功能
1、基本通訊功能，打電話、發短信。這些是手機的基礎功能此項功能必須實現，否則就不是手機了。2、娛樂功能。包含了相機、收音機、媒體播放器、遊戲等主要豐富我們的日常生活。為什麼收音機不是通訊功能，因為它隻是一個接受過程，不包含發送功能。3、智能機最大的進步是它結合了手機、音視頻播放及其它個人數據處理的幾乎所有的服務。智能手機的出現使得大多數用戶不用再帶很多其它的設備就可以完成想做的事情。4、智能手機的 2023-07-19
科技唱全民k歌用什麼耳機最好
1、k歌用耳機HI1200耳機還不錯。可以看一下得勝這款HI1200耳機的,這款耳機我平時是用在手機... 2023-07-19
科技 vivo手機怎麼用耳機
vivo手機可以在設置頁面中開啟HIFI耳機模式，具體步驟為（以VIVOZ3手機為例）：1、首先在v... 2023-07-20
科技中國象棋起源于什麼時期
我國象棋具有悠久的曆史。戰國時期，已經有了關于象棋的正式記載，如《楚辭·招魂》中有蓖蔽象棋，有六簿些；曹并進，遒相迫些；成袅而牟，呼五白些。《說苑》載雍門子周以琴見孟嘗君，說足下千乘之君也，燕則鬥象棋而舞鄭女。由此可見，遠在戰國時期，象棋已在貴族階層中流行開來了。據上述情況及象棋的形制推斷，象棋當在周代建朝前後産生于我國南部的氏族地區。早期的象棋，棋制由棋、著、局等三種器具組成。兩方 2023-07-19
科技 tp路由器橋接教程
1、副路由器接上電源，電腦連接上副路由器，在浏覽器輸入192.168.1.1登入後台，也有可能是其他... 2023-07-20
科技筆記本win10怎麼連接wifi
1、我們将筆記本電腦打開。仔細觀察界面，找到右下角。在電池的旁邊找到一個向上的箭頭。鼠标左擊點擊它。2、這時候會跳出一個對話框。仔細觀察界面，找到第2排最後一個的WiFi圖标。鼠标左擊點擊它。3、上面會有所有的WiFi。選擇一個你知道密碼的WiFi，鼠标左擊點擊它。如果你沒有密碼也可以使用，無線WiFi熱點來查密碼。仔細觀察，我們看到右下角有一個連接圖标。鼠标左擊點擊它。4、跳出對話框，我們使用鍵 2023-07-20
科技小紅書怎麼置頂評論
演示機型：Iphone12&&華為P40&&小米11系統版本：iOS14.4&&EMUI11&&MIUI12.0.7APP版本：小紅書v6.91.1在小紅書搜索“視頻号”，會看到報名通道。視頻号認證是免費的。報名條件有很多，但是都很簡單能完成，隻有一項：發布超過1分鐘的視頻。做一條或者找一條視頻發布，視頻号通過後删除即可。視頻号認證通過之後，将小紅書app升級到最高版本，就可看到評論置頂功能了。用 2023-07-19
科技電腦恢複出廠設置右鍵總轉圈怎麼辦
1、首先點擊windows鍵+R鍵，輸入msconfig，點擊确定。2、接着點擊工具”，找到更改UAC設置，點擊啟動。3、最後将滑塊滑到最底，點擊确定”。 2023-07-19
科技 36氪是做什麼的
1、36氪集團為中小微及科技創新企業解決“曝光難、辦公難、融資難”的問題，提供包括媒體曝光、辦公場地... 2023-07-20
科技 u盤連接手機沒反應怎麼辦
1、最有可能的，就是U盤壞掉了，U盤壞了的話連接手機肯定是沒反應的，檢驗方法是把U盤插到别的手機或者... 2023-07-20
科技 65寸電視屏幕怎樣擦洗
1、先關閉LCD電源，并取下電源線插頭和顯卡連接線插頭。将LCD搬到天然光線較好的場所，以便能看清塵埃所在，更利于有的放矢，然後到達非常好的清洗作用。2、清洗液晶顯現屏不需要什麼專門的溶液或擦布，清水+柔軟的無絨毛布或純棉無絨布即是最佳的液晶大屏幕清洗東西不掉屑紙巾也行)。在清洗時可用純棉無絨布蘸清水然後稍稍擰幹，再用微濕的柔軟無絨毛濕布對顯現屏上的塵埃進行悄悄擦洗不要用力的揉捏顯現屏)，擦洗時主 2023-07-19
科技我國的茶道屬于東方文化嗎
茶道屬于東方文化。早在我國唐代就有了茶道這個詞，例如，《封氏聞見記》中又因鴻漸之論，廣潤色之，于是茶道大行。唐代劉貞亮在《飲茶十德》中也明确提出以茶可行道，以茶可雅志。茶道是一個審美的過程，追求的是雅緻，是一種感覺、一種意境。古人雲茶道即人道，品茶即品人。隻有茶品人品相得益彰，才能達到天人合一的無我之境。一如野鶴遊于閑雲，潛龍戲在深淵，無主客之分，渾如一體。茶道之為道，推崇備至矣。何為道？道生一， 2023-07-19
科技微信語音的靜音有啥用
演示機型：Iphone12&&華為P40&&小米11系統版本：iOS14.4&&EMUI11&&MIUI12.0.7APP版本：微信8.0.4微信電話靜音鍵可以使自己的手機處于靜音狀态。微信在打微信電話的時候，按下靜音鍵，用戶自己會被靜音。但是對方還是可以說話，對方也可以聽到聲音。如果聽不到對方說話可能是自己的麥克風或者聽筒出現了問題。本操作方法适用于Iphone12、華為P40、小米11三種機型 2023-07-20
科技微信不能換綁手機号怎麼辦
演示機型：Iphone12系統版本：iOS14.4.1APP版本：微信8.0.0微信中可以更換手機号碼，錯誤的操作方法就會導緻更換手機号失敗。打開手機微信，點擊我的頁面下方的設置。在設置頁面上方打開賬号與安全。然後在頁面上方打開手機号。在彈出頁面下方點擊更換手機号。在頁面輸入新的手機号後點擊右上角下一步。然後在更換手機号流程指引頁面點擊下一步，然後跟着步驟提醒操作即可。 2023-07-19
科技蘋果怎麼降級系統版本
1、打開下載好的iTunes，備份手機資料。2、使用iTunes的恢複iPhone選項刷入降級固件。3、等待刷機完成，導入備份文件即可。 2023-07-20
科技藍牙耳機隻能連接一台手機嗎
演示機型：Iphone12&&華為p40&&小米11&&airpods系統版本：iOS14.4藍牙耳機一次隻能連接一台手機，但可以和不同手機配對。每部手機内部集成了一個藍牙模塊，這個模塊隻能控制一個藍牙設備或者傳輸中也隻能點對點傳輸。一個藍牙模塊最多隻能連接一個設備，不能同時連接2個藍牙。出現不可用的現象可能是手機與藍牙耳機連接時間過長導緻，重新嘗試即可。此方法适用于蘋果、小米、華為手機。連接時藍 2023-07-19
科技華為手機jkm-aloob撥号鍵怎麼...
1、可以在手機的負一屏的搜索欄搜索撥号，就會出來撥号這項功能（因為你沒有卸載它，隻是圖标不見了)。2... 2023-07-20
科技電池漏液怎麼處理幹淨
1、檢查電池的外殼，很多時候因為電池安裝不合理、車架電池盒有焊渣和車架底盤低導緻的磕碰等原因，造成外... 2023-07-20
科技 micro接口什麼意思
1、MicroUSB是USB2.0标準的一個便攜版本，比部分手機使用的MiniUSB接口更小，Mic... 2023-07-20
科技蘋果手機來電阻止與身份識别在哪裡
演示機型：Iphone12系統版本：iOS14.4APP版本：360手機衛士9.0.71、首先在手機上下載360手機衛士，打開設置圖标。2、進入iOS設置頁面，往下翻頁，找到電話，點擊打開。3、在打開的電話設置頁面中，找到并打開來電阻止與身份識别欄目。4、進入來電阻止與身份識别的設置頁面，可以看到當前已經列舉了被添加為騷擾信息的電話号碼，點擊360手機衛士-号碼包右側的按鈕即可。蘋果手機使用小技巧 2023-07-19
科技華為網絡加速什麼意思
演示機型：華為P40系統版本：EMUI11華為網絡加速是指手機同時使用wifi和流量上網，加快上網速度。若手機出現上網慢的情況，請檢查以下情況：請查看手機的網絡模式，如使用的是4G網絡即可使用高速的數據業務，使用3G網絡速率相對較慢。請查看手機的信号強度，如果信号較弱，可能是由于信号強度影響手機的速率。華為：華為技術有限公司，成立于1987年，總部位于廣東省深圳市龍崗區。華為是全球領先的信息與通信 2023-07-20
科技 g和gb哪個流量多
演示機型：Iphone12系統版本：iOS14.4G和GB一樣多。G和GB都是屬于流量的u計量單位，GB、KB、MB也可以寫作G（吉）、M（兆）、K（千）。手機流量的單位是采取1024進制的，單位有GB（G）、MB（M）、KB、B。流量的其他計量單位：單位以字節表示，即：B、KB、MB、GB等（也可簡稱為B、K、M和G等，MB也稱兆字節或兆）。對這種表示，完全是借用硬盤儲存數字的單位。衆所周知，計 2023-07-19
科技現代領動的eco是什麼功能
1、ECO隻是提示你在駕駛時車輛的給油情況的一個指示燈。當ECO綠燈亮起時，說明你是處于省油的狀态下在駕駛，當ECO燈滅時，表示你車輛不在省油駕駛。當你打開ECO模式，在猛踏油門、或者超過120碼駕駛時，ECO都不會亮。ECO的主要作用是在于培養你良好的駕駛習慣，即不要猛踏油門。2、主動式ECO模式的原理主要是在車輛行進過程中，對自動變速器擋位，發動機轉速，車速，制動以及變速器油溫等對油耗有影響的 2023-07-19
科技電腦怎麼移動文件位置
1、首先點擊選中要移動的文件夾，不要雙擊打開。2、然後點擊【主頁】。3、點擊【移動到】。4、選擇要移... 2023-07-20
科技 vivo手機太卡怎麼辦
1、可以長按一鍵加速，然後點擊内存清理，将系統文件以及緩存垃圾清理一下。2、不常用的軟件卸載掉，可以... 2023-07-20
科技小兒常見皮疹如何區别
第一、小兒急性皮疹發熱通常返回皮疹，3-5天後發熱，皮疹，2-3天開始消退。沒有皮疹的症狀。第二、風似皮疹它是一組局部水腫隆起，扁平，比皮膚高，顔色蒼白或粉紅色，在正常皮膚之間有清晰的線條，瘙癢，突然消失，醫學上稱為荨麻疹。第三、出汗疱疹由于在皮膚角質層下留下汗液，新生兒常見。小米的谷粒較大或較大，含有澄清的液體，很容易被損壞，并且經常在前額，胸部，背部和手臂中發現。如果治療不當并導緻細菌感染，則 2023-07-19
科技大疆靈眸Osmo手機雲台2如何連接手...
1、首先在手機上打開DJIGOAPP，然後将手機夾持在靈眸Osmo手機雲台2上，并打開手機藍牙。2、長按靈眸Osmo手機雲台2操作面闆上的M鍵，啟動靈眸Osmo手機雲台2。3、打開手機的藍牙菜單，找到靈眸Osmo手機雲台2的藍牙設備并連接。4、打開DJIGOAPP，向右滑動主界面，将所選設備切換到靈眸Osmo手機雲台2，并點擊連接設備。5、在藍牙設備列表中找到自己的靈眸Osmo手機雲台2，并點擊連 2023-07-19
科技駕駛證分到期沒清零怎麼辦
1、一般在一年的計分周期内，如果扣分未達到12分，且罰款全部及時繳納的，駕照積分到期後會自動清零；如果您未按時繳納罰款，扣的分數會自動跟随到下一年，而且不會清零！2、需要注意的是，交警現場開的罰單，一定要在15日内繳納罰款，否則會産生滞納金，增加罰款的金額（會翻倍喲），還會影響計分清零。3、從你拿到駕照起，計分周期就開始計算了。從開始之日起，一年内，都算是一個計分周期，比如你是2019年2月1日拿 2023-07-20

tft每日頭條

> 科技

> pandas怎麼統計重複數據

pandas怎麼統計重複數據

相关科技资讯推荐

热门科技资讯推荐

网友关注