從0開始教你做數據分析12篇-tft每日頭條

從0開始教你做數據分析12篇

科技更新时间:2026-08-01 04:54:16

導讀：大多數情況下，數據分析的過程必須包括數據探索的過程。數據探索可以有兩個層面的理解：
一是僅利用一些工具，對數據的特征進行查看；二是根據數據特征，感知數據價值，以決定是否需要對别的字段進行探索，或者決定如何加工這些字段以發揮數據分析的價值。字段的選取既需要技術手段的支撐，也需要數據分析者的經驗和對解決問題的深入理解。

作者：彭鴻濤張宗耀聶磊

如需轉載請聯系華章科技

01 數值類型
在進行數據分析時，往往需要明确每個字段的數據類型。數據類型代表了數據的業務含義，分為3個類型：

1. 區間型數據（Interval）

數值型數據的取值都是數值類型，其大小代表了對象的狀态。比如，年收入的取值，其大小代表了其收入狀态。

2. 分類型數據（Categorical）

分類型數據的每一個取值都代表了一個類别，如性别，兩個取值代表了兩個群體。

3. 序數型數據（Ordinal）

和分類型數據非常相似，每個取值代表了不同的類别。但是，序數型的數據還有另外一層含義就是每個取值是有大小之分的。比如，如果将年收入劃分為3個檔次：高、中、低，則不同的取值既有類别之分，也有大小之分。

如果不了解字段的實際業務含義，數據分析人員可能會出現數據類型判斷失誤。比如字段的取值為“1”“2”“3”等，并不意味着是一個數值類型，它的業務含義還可以是一個分類型的字段，“1”“2”“3”分别代表了一個類别，其大小沒有任何含義。所以，充分了解字段的含義是很重要的。

很多的數據分析工具會根據數據中的字段的實際取值，做出類型的自動判斷：如字符型的數據，一般都認定為分類型數據；如某個字段的所有取值隻有“1”“2”“3”，則判斷其為分類型變量，然後經過用戶的再次判斷，其很可能是序數型變量。

不同的數據類型，在算法進行模型訓練時，處理和對待的方式是不同的。區間型數據是直接進行計算的；分類型數據是先将其轉換為稀疏矩陣：每一個類别是一個新的字段，然後根據其取值“1”“0”進行計算。

在很多場景下，人們習慣将分類型數據和序數型數據統稱為分類型數據，即數據類型可以是兩個：數值型數據（區間型數據）和分類型數據（分類型數據和序數型數據）。

02 連續型數據的探索
連續型數據的探索，其關注點主要是通過統計指标來反映其分布和特點。典型的統計指标有以下幾個：

4. 缺失值

取值為空的值即為缺失值。缺失值比例是确定該字段是否可用的重要指标。一般情況下，如果缺失率超過50%，則該字段就完全不可用。

在很多情況下，我們需要區别對待null和0的關系。Null為缺失值，0是有效值。這個區别很重要，要小心區别對待。例如，某客戶在銀行内的某賬戶餘額為null，意味着該客戶可能沒有該賬戶。但是如果将null改為0，則是說用戶有該賬戶，且賬戶餘額為零。

5. 均值（Mean）

顧名思義，均值即平均值。其大小反映了整體的水平。一個數學平均成績是95分的班級，肯定比平均成績是80分的班級的數學能力要好。

6. 最大值和最小值

最大值和最小值即每個數據集中的最大數和最小數。

7. 方差

方差反映各個取值距平均值的離散程度。雖然有時兩組數據的平均值大小可能是相同的，但是各個觀察量的離散程度卻很少能相同。方差取值越大，說明離散程度越大。比如，平均成績是80分的班級，其方差很小，說明這個班級的數學能力比較平均：沒有多少過高的成績，也沒有多少過低的成績。

8. 标準差

标準差是方差的開方，其含義與方差類似。

9. 中位數（Median）

中位數是将排序後的數據集分為兩個數據集，這兩個數據集分别是取值高的數據集和取值低的數據集。比如，數據集{3,4,5,7,8}的中位數是5，在5之下和5之上分别是取值低和取值高的數據集。數據集{2,4,5,7}的中位數應當是(4 5)/2=4.5。

10. 衆數（Mode）

衆數是數據集中出現頻率最高的數據。衆數最常用的場景是分類型數據的統計，但是其也反映了數值型數據的“明顯集中趨勢點的數值”。

均值、中位數、衆數的計算方式各有不同，假設有一組數據：

1,2,2,3,4,7,9
均值：(1 2 2 3 4 7 9)/7=4
中位數：3
衆數：2

11. 四分位數（Quartile）

四分位數，即用三個序号将已經排序過的數據等分為四份，如表2-2所示。

▲表2-2 四分位的例子

第二四分位數（Q2）的取值和中位數的取值是相同的。

12. 四分位距（Interquartile Range，IQR）

四分位距通過第三四分位數和第一四分位數的差值來計算，即IQR=Q3-Q1。針對上表，其IQR=61-34=27。

四分位距是進行離群值判别的一個重要統計指标。一般情況下，極端值都在Q1-1.5×IQR之下，或者Q3 1.5×IQR之上。著名的箱形圖就是借助四分位數和四分位距的概念來畫的，如圖2-1所示。

▲圖2-1 箱形圖及IQR

箱形圖中的上下兩條橫線，有可能是離群值分界點（Q3 1.5×IQR或Q1-1.5×IQR），也有可能是最大值或最小值。這完全取決于最大值和最小值是否在分界點之内。

13. 偏斜度（Skewness）

偏斜度是關于表現數據分布的對稱性的指标。如果其值是0，則代表一個對稱性的分布；若其值是正值，代表分布的峰值偏左；若其值是負值，代表分布的峰值偏右。在圖2-2中給出了偏斜度的示例。

▲圖2-2 Skewness的含義

Skewness的絕對值（不論是正值還是負值）如果大于1是個很明顯的信号，你的數據分布有明顯的不對稱性。很多數據分析的算法都是基于數據的分布是類似于正态分布的鐘型分布，并且數據都是在均值的周圍分布。如果Skewness的絕對值過大，則是另一個信号：你要小心地使用那些算法！

不同的偏斜度下，均值、中位數、衆數的取值是有很大不同的：

▲圖2-3 衆數、均值及中位數在不同分布下的比較

由圖2-3可見，在數據取值範圍相同的情況下，中位數是相同的。但是均值和衆數卻有很大的不同。所以，除了偏斜度指标可以直接反映分布特征外，還可以通過中位數和均值的差異來判斷分布的偏斜情況。
中位數＜均值：偏左分布
中位數、均值相差無幾：對稱分布
中位數＞均值：偏右分布

14. 峰态（Kurtosis）

标準正态分布的峰态的值是3，但是在很多數據分析工具中對峰态值減去3，使得：0代表是正态分布；正值代表數據分布有個尖尖的峰值，高于正态分布的峰值；負值代表數據有個平緩的峰值，且低于正态分布的峰值。

峰态指标的主要作用是體現數值分布的尾巴厚度，尖峰對應着厚尾，即Kurtosis大于0時，意味着有一個厚尾巴。尖峰厚尾也就是說，在峰值附近取值較集中，但在非峰值附近取值較分散。圖2-4所示為一個峰态的例子。

▲圖2-4 峰态的例子

在連續型數據的探索中，需要重點關注的指标首先是缺失率，然後是均值、中位數等指标，這些指标能幫助數據分析者對數據的特征有很好的了解。偏斜度是另外一個非常重要的指标，但其絕對值接近1或大于1時，必須對其進行log轉換才能使用，否則該指标的價值将大打折扣。

Python Pandas中DataFrame的describe方法默認隻統計連續性字段的最大值、最小值、均值、标準差、四分位數，如果想獲取其他的特征值，需要調用相應的函數來獲得。下面是一段示例代碼，其運行結果通過表2-4來展示。

List_of_series = [bank.var().rename('方差'), bank.median().rename('中位數'), bank.skew().rename('偏斜度'), bank.kurt().rename('峰态')] df = pd.DataFrame(list_of_series) mode = bank.mode(numeric_only＝True).rename({0: '衆數'}) pd.concat([df, mode])

▲表2-4 連續型變量數據探索示例代碼的運行結果
03 分類型數據的探索
分類型數據的探索主要是從分類的分布等方面進行考察。常見的統計指标有以下幾個：

15. 缺失值

缺失值永遠是需要關心的指标，不論是連續型數據，還是分類型數據。過多的缺失值，會使得指标失去意義。

16. 類别個數

依據分類型數據中類别的個數，可以對指标是否可用有一個大緻的判斷。例如，從業務角度來看，某指标應當有6個類别，但實際樣本中隻出現了5個類别，則需要重新考慮樣本的質量。再如，某個分類型變量隻有一個類别時，對數據分析是完全不可用的。

17. 類别中個體數量

在大多數情況下，如果某些類别中個體數量太少，如隻有1%的比例，可以認為該類别是個離群值。關于分類型變量離群值的研究比較多，但是如果脫離業務來談分類型變量的離群值，是不妥當的。

不平衡數據就是一個典型的與業務有關的例子。比如，從業務角度來看，購買黃金的客戶隻占銀行全量客戶的很小的一個部分，如果采取簡單随機抽樣的方式，“是否購買”列的值将隻有極少的“是”的取值。

但是，不能将“是”直接判斷為離群值，反而“是”有極其重要的業務含義。所以，數據分析者需要靈活地認識和對待類别中個體數量的問題。

18. 衆數

和連續型數據的含義一樣，衆數是數據集中出現頻率最高的數據。比如，針對某個分類型取值A、B、C、D中C的出現次數最多，則C就是衆數。

以下是一段分類型變量數據探索示例代碼，其運行結果通過表2-5來展示。

bank.describe(include=[np.object])

▲表2-5 分類型變量數據探索示例代碼的運行結果

應用Python Pandas的相關函數能夠非常容易得到分類型變量的探索結果，表2-5所示就是數據探索示例代碼的運行結果。

關于作者：彭鴻濤，德勤企業咨詢總監兼首席數據科學家，德勤全球AI團隊核心成員，德勤數字化轉型、智慧營銷、智慧風控、客戶體驗等核心咨詢服務方案的資深顧問。

張宗耀，上海全應科技有限公司資深數據科學家，前華為企業智能部門資深數據科學家，前IBM SPSS 算法組件團隊資深算法工程師。

聶磊，陝西萬禾數字科技有限公司CTO，前IBM SPSS 資深數據科學家，前IBM Watson Analytics數據分析引擎技術主管及架構師。

本文摘編自《增強型分析：AI驅動的數據分析、業務決策與案例實踐》，經出版方授權發布。

延伸閱讀《增強型分析》

推薦語：增強型分析是數據科學的未來，本書講解了如何通過前沿的大數據技術和AI技術實現智能的數據分析和業務決策，即增強型分析。本書的三位作者是來自德勤、前華為和前IBM的資深數據科學家，在大數據和AI領域至少都有10年以上的工作經驗，他們将各自多年來在“構建數據挖掘模型，解決實際業務問題”方面積累的經驗全部總結在了這本書中。

長按二維碼發現更多好書

,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技資源分享網站鍊接大全
有人說世界上最遠的距離不是“生與死的距離，而是我站在你面前，你不知道我愛你”。但小編想說這世上最遠的距離應該是電腦在我面前，而我找不到想要的資源，莫名也是有點慘啊。今天小編将推薦幾個超級無敵多資源的網站，讓大家的資源多到滿出來~一、盤搜搜這... 2023-02-03
科技北京溫榆河公園一期圖
北京溫榆河公園一期圖?新京報訊（記者張潔）元旦、春節将至，同時将迎來北京冬奧會，即日起至2022年2月20日，北京頤堤港将“變身”冰山，以“雪野仙蹤”為冬日主題，打造4處沉浸式體驗空間，以及線上AR互動體驗場景消費者可以拍照打卡、體驗冰雪項... 2022-12-07
科技蘋果電腦中的數據恢複軟件
如何把蘋果電腦的數據恢複回來？蘋果電腦上面本來保存了很多重要的文件數據，結果因為一系列誤操作，導緻這些文件都消失不見了。這樣的情況相信不止是小編一個人遇到過，你們消失不見的有可能是照片，也有可能是視頻，如果要把這些數據找回來，是否很難呢？跟... 2022-12-11
科技神武4十二生肖對應城市
十二生肖是《神武4》重要的日常挑戰活動，其豐厚的物品獎勵是我們積攢神武币的重要來源。正所謂，知己知彼才能百戰不殆。想要了解怪物特征，學會又快又穩的十二生肖挑戰打法嗎？就讓我們一起往下看吧~一、活動介紹十二生肖每逢半點出現，≥60級玩家3人組... 2023-03-08
科技電腦卡了如何解決
電腦卡了如何解決?打開電腦，電機左下方的windows圖标，找到“計算機”并點擊，在這裡找到“本地磁盤C”并用鼠标右擊，在選項中點擊“屬性”在接下來的界面中點擊“磁盤清理”接下來會彈出一個對話框，這裡可以有很多垃圾文件的選項，把能清理的垃圾... 2022-07-05
科技華為p30pro能和單反相比嗎
手機和單反，各有各的優勢，我們應該揚長避短。今天，具體由光線攝影學院曾蘭老師來給大家談談如何發揮各自的優勢吧：一、手機最厲害的拍照功能之一，HDR這個是單反和微單的短闆所在，單反和微單，要想有手機的HDR效果，其實是非常麻煩和耽誤時間的了。... 2022-11-18
科技用什麼殺毒軟件好
用什麼殺毒軟件好?關于如何選擇這個問題，相信每個人都有自己的看法，那我就來說說我的看法，首先，我電腦上是裝了一個360火絨的，不為别的，就是吐功能方便，我也用了幾年360了，火絨前些年才開始用，QQ電腦管家偶爾用用，而我在前些年也嘗試過裸奔... 2022-10-31
科技跑跑卡丁車單機版有哪些版本
跑跑卡丁車單機版有哪些版本?說到《跑跑卡丁車》相信大部分人都不會陌生，作為一款運營了十幾年的遊戲，這款遊戲承載了無數人的回憶最近，這款遊戲迎來了一波“進化”沒錯，用升級來形容還是太保守，因為這次它是真的重獲新生，我來為大家講解一下關于跑跑卡... 2022-10-13
科技紅外管發射系統
雖然我們可以通過無線方式來傳輸數據，但想要通過無線方式傳輸電力則充滿挑戰。現在，韓國工程師已經展示了一種新系統：使用紅外激光将電力發射到100英尺（30米）遠。通過利用該系統，未來隻要我們走進房間就可以自動為你的手機進行充電。無線充電已經是... 2022-12-29
科技女鄰居讓我幫忙修電腦
俗話說“吃人嘴短，拿人手短”，生活中各個方面都能體現，就在今天，我就碰到了一位大叔送給我了一部蘋果手機，我當時還以為自己是占便宜了，沒想到大叔給我上了一堂課，我真是後悔死了，下次再也不占小便宜了，這是怎麼回事呢？請往下看！大爺送我的4S不開... 2023-01-31
科技印象筆記快速入門
印象筆記，關注我們的老觀衆一定不會陌生，我們做過他們的很多東西，而這，一個本子一支筆，組合成了他們全新的産品——EverPEN一直很喜歡印象筆記的設計風格這可愛的花紋，好看這一抹清新的綠，愛了。這腰封設計得，漂亮漂亮到都不忍心撕掉它看到它，... 2023-02-22
科技王者榮耀貂蟬仲夏夜之夢壁紙
, 2022-12-26
科技手機裡開發者選項哪些功能打開好
歡迎轉載，請注明出處，抄襲必究！對于安卓手機用戶來說，對手機開發者模式（開發人員選項）肯定不會覺得陌生，但估計也很多人搞不清楚開發者模式到底有什麼用。總覺得它像個神秘嘉賓，一直潛伏在手機裡默默的守護着你的愛機，好像很厲害卻又好像根本用不上？... 2023-01-24
科技電腦怎麼清理c盤都是滿的
電腦使用太久或者C盤儲存容量不足，都會影響系統的運行速度，C盤作為系統運行盤，一般内存不會太大，但是這就導緻了有時候内存不夠用的情況。一般有兩方面的原因：1、電腦軟件安裝太多，且大軟件都安裝在系統盤中。2、平時使用電腦時放在桌面的文件過多。... 2023-02-03
科技東京奧運會門票第二輪
中新網4月8日電據日本《朝日新聞》報道，圍繞2020年東京奧運會門票，大會組委會于4月5日宣布，将于18日開設售票網站，并在5月之内開始接受購買申請。資料圖：3月20日，東京奧組委在日本東京揭曉了2020年東京奧運會火炬造型。火炬造型靈感源... 2023-02-07
科技每一年的電腦差距大嗎
【PConline雜談】1994年一條64K的國際專線将中國互聯網正式接通，從此插上了騰飛的翅膀。1995年，随着Windows95的發布，電腦，作為當時唯一接連外面世界的圖形界面工具，正是從那個時候開始走進尋常百姓家。二十寒暑，滄桑巨變，... 2022-12-13
科技如何使用老電腦硬盤
随着SSD的普及，大批的3.5寸大硬盤閑置下來，發現不少小夥伴都對它們束手無策，隻能将它們束之高閣然後不理不問；近來，存儲介質漲得那叫一個瘋，于是又有不少小夥伴們想起了它們，尋思着把它們DIY成移動備份盤也不失為物盡其用。見慣了2.5寸的移... 2023-01-25
科技可以快速合并的軟件
對于剛進入新媒體行業的小夥伴來說，需要掌握的視頻剪輯技巧有很多，特别是遇到需要合并幾個視頻素材的時候，如果小夥伴們對剪輯軟件的使用不熟悉，就很容易鑽牛角尖，浪費大把的時間研究軟件的功能，降低自己的工作效率。因此我今天來跟大家分享一些好用的視... 2023-01-01
科技諾基亞lumia1020現在能用嗎
諾基亞（Lumia）1020相機測評系統是wp8.1，這系統現在也沒有啥用了，我也用不慣這系統，還是可以導入一些歌聽一下，還有照片我是通過數據線傳到電腦上的。優點，4100萬像素的相機，在️光照條件充足的情況下，解析力還是很不錯的，它的攝像... 2022-11-10
科技微信怎麼發朋友圈視頻
微信怎麼發朋友圈視頻?首先在手機微信的發送頁面點擊【朋友圈】，下面我們就來說一說關于微信怎麼發朋友圈視頻?我們一起去了解并探讨一下這個問題吧!微信怎麼發朋友圈視頻首先在手機微信的發送頁面點擊【朋友圈】。進入到朋友圈頁面以後，然後點擊頁面上方... 2022-06-01
科技福爾摩斯惡魔之女怎麼攻略
Frogwares在不久前公布了《福爾摩斯：惡魔之女》的首部官方遊戲試玩視頻，感興趣的玩家塊和6399小編一起來了解下福爾摩斯是如何幫助父親失蹤的小男孩湯姆-赫斯特的吧。下面就和6399小編一起來看看吧~《福爾摩斯：惡魔之女》還有一個月就要... 2023-02-24
科技共享文件如何在另一台電腦上查看
1.配置IP地址首先在“計算機A”上配置IP地址，然後在“開始菜單”中打開“控制面闆”。找到“網絡連接”以打開；右鍵單擊獨立的“本地連接”-“屬性”；雙擊“Internet協議（TCP/IP）”；選擇“使用以下IP地址”；在“IP地址”和“... 2023-01-08
科技蘋果設置來電全屏頭像
這個支持蘋果以及系統ios最新得版本哦，來電顯示全屏僅限制對方也是蘋果手機哦，不然不是蘋果手機的來電是黑色右上角一個小頭像。今天偶然看到這個ihone的隐藏小功能，立馬安排上了，小表情可可愛愛，三步就能搞定③趕緊做起來呀我的手機：iPhon... 2023-03-25
科技兩千以内最值得購買的平闆電腦
轉眼又到一年雙·11，你的錢包轉備好了嗎？這個剁手季節裡你需要提前規劃購物清單，當然買什麼怎麼賣更實惠，還是要銷量告訴你。今天為大家列出了京東電商銷量排行前幾位的平闆電腦，實力和性價比兼備，要入手速來。清單提前看銷量告訴你該入手這8款平闆●... 2022-11-11
科技 oppo免打擾模式開啟後怎麼關閉
我們使用oppo手機時，開啟免打擾模式，可以更認真的工作，休息等，那麼oppo手機如何取消免打擾模式呢？今天就跟着小編一起了解一下吧。oppo手機如何取消免打擾模式1、或者打開手機設置，點擊【聲音與振動】。2、關閉【免打擾】右側的開關即可。... 2023-01-16
科技保單托管錄入方式
注：如果本解決方案對您有用，請轉移到文章最後有驚喜！TableofContents1.業務明細21.1人員管理31.1.1員工信息登記31.1.2員工信息查看41.2保單管理51.2.1産品名稱設置51.2.2代理名稱設置51.2.3保單登... 2023-03-28
科技明年一月份值得入手手機
對于還在糾結，不知道2022年該選擇哪款手機的朋友，希望這篇文章可以幫助到你，我們将回顧2022年至今發布的所有手機，彙總并為你推薦各價位段的超值選擇，讓你可以在茫茫機海中做出正确的選擇，或者買到适合自己的手機。1000-2000元，Red... 2022-12-27
科技軟件外包的使用方法
軟件外包的使用方法?大家好，我是過路人!一個資深的軟件外包人;，我來為大家科普一下關于軟件外包的使用方法?下面希望有你要的答案，我們一起來看看吧!軟件外包的使用方法大家好，我是過路人!一個資深的軟件外包人;做軟件外包行業之前，每個人都需要有... 2023-01-03
科技高清壁紙無水印1080p蘋果手機
, 2023-01-03
科技單片數字功放怎麼調節
茶餘飯後的綜藝檔市場，因為商業價值和流量，免不了出現同類紮堆同質化嚴重的現象。《我就是演員》照搬《歌手》的賽制模式，直接pk對面的《演員請就位》。而在《演員請就位》熱播後，又有将進入總決賽階段的《歌手請就位》來組成“請就位”系列，當然看點則... 2023-01-23

tft每日頭條

> 科技

> 從0開始教你做數據分析12篇

從0開始教你做數據分析12篇

相关科技资讯推荐

热门科技资讯推荐

网友关注