五招教你擁有數據分析思維-tft每日頭條

五招教你擁有數據分析思維

科技更新时间:2026-02-27 06:29:19

針對樣本數據的描述性探索分析，是我們模型開發任務的一個必要步驟，其中特征變量之間的相關性量化評估，往往是數據分析處理的重要内容，隻有對樣本特征數據相關程度的整體把握，才能為特征性能評價與特征字段篩選提供合理的參考依據，也為特征工程的實施提供更有效的保障。但是，在實際業務場景中，我們很多情況下對樣本數據的特征相關性進行分析時，隻是通過最常用的pearson系數來分析數值型自變量的相關性能，這裡暫且不考慮pearson系數針對數值型變量所應當具備的分布類型，僅對數值型自變量的相關性能評估，在數據分析任務中并沒有全面考慮不同特征的分布類型、取值維度、變量屬性等情況。因此，圍繞樣本數據不同特征類型場景下的變量相關性解析，是我們從事數據分析工作應當具備的思維之一，也是數據測試評估、建模樣本處理等任務的必備内容。

結合以上實際場景描述，本文根據不同特征類型的情形，從多個維度來全面分析下特征變量之間的相關性程度，詳細區分特征的取值類型（連續型和離散型）、字段屬性（自變量與因變量）、類别數量（二分類與多分類）等常見組合，同時采用相關圖表可視化形式展示相關結果，具體分析維度及其方法如下：

（1）連續自變量與連續自(因)變量——相關系數

（2）連續自變量與二分類因變量——z檢驗

（3）二分類自變量與連續因變量——t檢驗

（4）多分類自變量與連續因變量——方差分析

（5）分類自變量與分類自(因)變量——卡方檢驗

接下來我們圍繞以上分析維度，來探索下不同場景特征相關性的實現過程，為了更好的理解各種情形的原理邏輯與處理方式，現結合實際樣本數據通過python實操來展開詳細分析。實例數據包含10000條樣本與8個特征，具體樣例如圖1所示，其中ID為樣本主鍵，X1~X5為特征變量，Y1、Y2為目标變量，為了區分不同特征類型的組合情況，各字段的取值類型與業務屬性如圖2所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）1

編輯

添加圖片注釋，不超過 140 字（可選）

圖1 樣本數據

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）2

編輯

添加圖片注釋，不超過 140 字（可選）

圖2 特征類型

1、連續自變量與連續自(因)變量

在樣本數據中，連續自變量為X3、X4、X5，連續因變量為Y2，對其相關性分析最常用的方法是pearson系數，在python環境中可以通過corr(method='pearson')函數來實現。pearson相關系數的取值範圍為[-1,1]，絕對值越大說明相關性越強，正值代表正相關，負值代表負相關。在實際業務場景中，通常以阈值0.5~0.7來判斷特征變量間相關性程度的強弱，也是特征相關性篩選的參考标準。以上連續自變量之間的pearson相關系數結果具體如圖3所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）3

編輯

添加圖片注釋，不超過 140 字（可選）

圖3 特征相關系數

由以上結果可知，連續變量X3、X4、X5、Y2之間的相關系數均表現較低，最大值也僅有0.277892，說明各字段的相關性較弱。這裡需要注意的是，針對特征自變量X3、X4、X5來講，變量的相關性較弱可以有效降低模型的共線性問題，這也是我們期望的指标結果，而對于自變量X3、X4、X5與因變量Y2之間的相關程度很弱，并非實際建模所需的，原因是自變量與因變量的相關性較差，在很大程度上說明自變量對因變量的信息關聯度一般。

2、連續自變量與二分類因變量

針對連續自變量X3、X4、X5，以及二分類因變量為Y1，常采用z檢驗來分析特征組合的相關性。我們先通過箱線圖來預覽下各自變量與因變量的分布關系，然後再對各字段間的z檢驗結果進行輸出，具體實現過程如圖4所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）4

編輯

添加圖片注釋，不超過 140 字（可選）

圖4 特征z檢驗實現

通過以上過程得到各自變量X3、X4、X5與因變量Y1的箱線圖結果如圖5所示，可見在因變量Y1二分類取值情況下，各自變量的中位數分布有較明顯的差異，但具體量化評估特征分布的差異性，需要進一步通過各變量組合的t檢驗結果來說明，具體結果如圖6所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）5

編輯

添加圖片注釋，不超過 140 字（可選）

圖5 特征箱線圖分布

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）6

編輯

添加圖片注釋，不超過 140 字（可選）

圖6 特征z檢驗結果

從上圖可知，變量X3、X4、X5與Y1的z檢驗結果p值分别為1.62797843e-09、9.4355311e-20、7.77242436e-31，在默認置信度為0.05的情況下，各變量組合p值均遠小于0.05，拒絕原假設，通過顯著性檢驗，也就是自變量X3、X4、X5與因變量Y1都有較強的相關性。

3、二分類自變量與連續因變量

樣本數據中的二分類自變量為X1，連續因變量為Y2，這種特征組合場景常采用t檢驗的方式來評估其相關性。我們仍然采用箱線圖形式來展示自變量X1與因變量Y2的分布情況，然後再對特征組合進行t檢驗分析，具體實現過程如圖7所示，箱線圖與t檢驗結果分别如圖8、圖9所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）7

編輯

添加圖片注釋，不超過 140 字（可選）

圖7 特征t檢驗實現

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）8

編輯

添加圖片注釋，不超過 140 字（可選）

圖8 特征箱線圖分布

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）9

編輯

添加圖片注釋，不超過 140 字（可選）

圖9 特征t檢驗結果

從以上結果可知，二分類自變量X1與連續因變量Y2的箱線圖分布較明顯的體現出二者的差異性，而通過t檢驗結果對應的p值為8.6005009e-08，遠小于置信度0.05，拒絕原假設，通過顯著性檢驗，說明二分類自變量X1與連續因變量Y2之間具有較強的相關性。

4、多分類自變量與連續因變量

對于多分類自變量X2與連續因變量Y2的特征組合情形，通常采用方差分析來評估變量之間的相關性，首先來展示下變量X2與Y2的箱線圖分布情況，具體可視化結果如圖10所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）10

編輯

添加圖片注釋，不超過 140 字（可選）

圖10 特征箱線圖分布

從上圖結果初步可知，多分類自變量X2與連續因變量Y2具有顯著的差異性，為了進一步通過量化指标來驗證結論，下面采用方差分析的方式來評估。對于方差分析，在實踐中有兩種思路可以完成，一種是單因素方差分析的f檢驗，另一種是構建線性回歸模型對其方差分析，這裡我們采用單因素方差分析f檢驗的方式來完成分析，具體實現過程如圖11所示，輸出結果如圖12所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）11

編輯

添加圖片注釋，不超過 140 字（可選）

圖11 特征方差分析實現

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）12

編輯

添加圖片注釋，不超過 140 字（可選）

圖12 特征方差分析結果

通過單因素方差分析f檢驗結果可知，p值（3.296516212089719e-15）遠小于置信度0.05，拒絕原假設，通過顯著性檢驗，說明多分類自變量X2與連續因變量Y2之間具有較強的相關性。

5、分類自變量與分類自(因)變量

針對樣本數據中分類自變量X1、X2，以及分類因變量Y1，這種特征組合情形的相關性分析通常采用卡方檢驗的方式來實現，這裡我們選取X1、X2變量組合來進行介紹。為了更形象體現出變量之間的分布關系，我們采用堆疊圖的形式展現變量X1與X2的數據分布，具體可視化結果如圖13所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）13

編輯

添加圖片注釋，不超過 140 字（可選）

圖13 特征堆疊圖分布

由上圖結果可以直觀的了解到分類變量X1與X2的分布形态以及取值概率情況，若需要量化分析變量之間的相關性，需要通過卡方檢驗方式來評估，具體實現過程如圖14所示，輸出結果如圖15所示。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）14

編輯

添加圖片注釋，不超過 140 字（可選）

圖14 特征卡方檢驗實現

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）15

編輯

添加圖片注釋，不超過 140 字（可選）

圖15 特征卡方檢驗結果

通過以上結果可知，變量X1與X2的卡方檢驗p值（6.016053087941892e-78）遠小于置信度0.05，拒絕原假設，通過顯著性檢驗，說明分類變量X1與分類變量X2之間具有較強的相關性。

綜合以上内容，我們圍繞實際場景的多維度特征類型情形，全面分析了不同特征變量之間相關性分析的解決方法，詳細介紹了特征在取值類型（連續型和離散型）、字段屬性（自變量與因變量）、類别數量（二分類與多分類）等組合下的相關性評價方式，具體包括連續自變量與連續自(因)變量、連續自變量與二分類因變量、二分類自變量與連續因變量、多分類自變量與連續因變量、分類自變量與分類自(因)變量的細分場景，對應的分析方法包括相關系數、z檢驗、t檢驗、方差分析、卡方檢驗等。這些有針對性的解決方法，可以有效解決實際業務場景特征相關性評估任務，為數據建模的變量篩選提供更合理的分析依據，這正是我們日常開展數據分析工作所需的重要思維與方法。

為了便于大家全方位掌握不同場景下的特征相關性分析方法與實現過程，本文額外附帶了與以上内容同步的樣本數據與python代碼，供大家參考學習，詳情請移至知識星球查看相關内容。

五招教你擁有數據分析思維（領略數據分析師一大重要必會處理技能）16

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

...

~原創文章

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技河南大學攻略
讀書不覺已春深，一寸光陰一寸金。4月23日是“世界讀書日”，河科大校園書香四溢，除了圖書館豐富的藏書量和衆多數據庫資源外，漫步校園裡，還能看見許多書香濃、顔值高的閱讀打卡點！下面，就請和小編一起，解鎖神秘任務，開啟書香之旅吧！“立身以立學為... 2023-01-26
科技台式電腦硬盤如何恢複數據
電腦硬盤數據恢複方法，相信很多小夥伴都不怎麼喜歡去清理我們的電腦，時間一久就會發現，随着電腦内存空間越來越少，電腦的運行速度也會越來越慢，打開軟件也要卡半天，使用起來非常難受。最終，我們不得不去對電腦進行清理，把電腦裡不用的文件都删掉，給電... 2023-01-16
科技電腦開機内存占用40%
用PR剪輯視頻時，軟件崩了！不，準确地說，是老毛桃的心态崩了。遇到過無數次這樣的情況，但每次都是那麼的突然，措不及防！打開任務管理器一看，竟然又是這該死的内存，占用那麼高肯定會卡死啦，然後就是奪命的“奔潰”。于是，老毛桃将“Superfet... 2022-11-26
科技爆款家用迷你台式機到手僅需899元
衆所周知，傳統的台式機一般體積偏大，擺放在家裡比較占用空間。如果平時沒有玩遊戲的需求，那麼選擇一款迷你主機會是更好的選擇。今天給大家推薦一款台電的迷你台式機，秒殺價僅需899元。這款台式機最大的特點就是采用了非常小巧的機身體積，擺放在家裡更... 2023-03-09
科技好用又便宜的數據線
蘋果原裝線不耐用，最省心的辦法是買條尼龍編織數據線。我用過最好用的數據線是亞馬遜自營配件品牌AmazonBasics亞馬遜倍思的線，亞馬遜中國能買到。不過現在隻能走海外購了，不算運費稅費都得100一根。我三年前買的當時是亞馬遜的國内自營，6... 2023-03-11
科技手機qq空間怎麼設置訪問權限
手機qq空間怎麼設置訪問權限?進入手機QQ點擊:【動态】>【好友動态】>【我的頭像】>【右上角設置】中進行設置操作誰能看我的空間:即空間訪問權限，可設置可訪問空間的範圍:誰能看我的訪客:可設置發表動态中訪客的可查看範圍;，下面我們就來說一說... 2022-06-02
科技鈴木uu125如何裝防盜器
我的鈴木UU是今年五月底買來的，到現在一共騎了不到1800公裡，不管是油耗還是動力等總的來說挺讓我滿意，隻有一點原車沒有自帶防盜器，這點讓我有點不滿意。本來車子也不貴，我也不是那麼愛惜，平時就停在樓下，就是下雨我也沒有挪過。但是有好幾次，我... 2022-12-21
科技地理必背十八道大題
【2020年高考上海卷，第2題】例題2020年3月28日傍晚，某一中學天文愛好者觀測拍下“金星伴月”一幕，當天的農曆日期是（）A.三月初五B.三月十二C.三月十九D.三月廿六答案：A精講精析：（1）分析圖中的方位。①在我國觀月，月亮位于南面... 2022-12-15
科技數字賦能農業高質量發展
央視網消息：2021年，中國科學院啟動“黑土糧倉”先導專項，為黑土地保護與利用提供系統解決方案，為保障國家糧食安全和生态安全提供科技支撐。一年多時間過去了，眼下，在先導專項七大示範區之一的内蒙古呼倫貝爾大河灣，稻谷飄香、大豆“搖鈴”，一派豐... 2023-02-06
科技網站建設的具體步驟
如果說自己不懂得設計知識、也不懂得敲代碼的話，是否能夠搭建網站呢？這是很多新手小白都想要知道的問題，答案是肯定的，可以利用自助建站系統實現免費網站建設，下面我們就來看下如何建網站。想要實現免費建網站，就需要選擇免費的模闆開發方式，如今在互聯... 2023-01-16
科技北京光仁堂生物科技有限公司地址
北京光仁堂生物科技有限公司地址?北京光仁堂生物科技有限公司成立于2017年10月13日，注冊地位于北京市大興區春和路39号院1号樓6層3708，法人代表為徐丹丹，接下來我們就來聊聊關于北京光仁堂生物科技有限公司地址?以下内容大家不妨參考一二... 2022-06-12
科技 xp換win7系統時電腦藍屏怎麼解決
xp換win7系統時電腦藍屏怎麼解決?重啟電腦，在未進入系統之前一直按F8，選擇最後一次正确配置試下，現在小編就來說說關于xp換win7系統時電腦藍屏怎麼解決?下面内容希望能幫助到你，我們來一起看看吧!xp換win7系統時電腦藍屏怎麼解決重... 2022-06-02
科技衛生間馬桶的安裝位置選擇
馬桶安裝方向禁忌有哪些？1、馬桶安裝的方向根據中國傳統風水學的原理，馬桶的方向不可和大門的方向一緻。比如大門的方向朝南，那麼當人坐在便器上的時候，如果面也向着南方，就是犯了便器與大門同向的忌諱。所以這些問題要考慮到。2、馬桶不能對門放馬桶也... 2023-02-20
科技十大超強自學網站
今天和大家聊一聊！自學提升，培訓班最不想讓你知道的自學網站，海量優質的課程免費看，一年輕松提升，學習也省了好幾萬！一、設計師導航網址優質的設計師導航網站每周不定時進行更新，各種設計師自學素材，教程、這裡都能夠找的到，耳濡目染各種參考，很快就... 2022-12-15
科技寫程序代碼格式
程序文件是咱們管理體系文件中的一部分，今天說一下如何編寫程序文件。上兩篇文章介紹到了質量手冊，這個程序文件基本原則編寫時，其内容必須與質量手冊的規定相一緻，要注重其協調性、可行性和可檢查性。并保證和其他程序文件的協調一緻。應涵蓋RB/T21... 2022-12-16
科技 u盤裝win10正版系統
u盤安裝原版win10系統，首先我們需要準備一個8g以上容量的正品u盤和一台能聯網的電腦我們需要将官方win10鏡像寫入u盤，再用u盤将系統安裝到電腦上這裡需要注意，如果您的u盤内有重要的文件，需要提前拷貝出來，系統u盤制作的過程會将u盤格... 2023-02-27
科技最好的保濕水乳是哪款
水乳測評：這些我用過最好的保濕修複乳液!簡直是敏感肌必備!SANA豆乳美肌保濕乳液純天然大豆萃取，豐富的大豆異黃酮，保濕美白抗衰老一步搞定。無香料、無着色、無礦物油、無添加，孕婦敏感肌都适用！用于豆乳水之後，一點點就能糊完全臉，質地很輕薄，... 2023-01-16
科技雙11華為筆記本選購指南
雙11的優惠活動已經開啟，是不是正打算給自己選購一台筆記本電腦呢？衆多品牌怎麼選？不如看看2022年的市場銷量。聚焦2022年整個國内PC出貨量，今年第二季度國内整體PC市場出貨量同比下滑16%，但是華為筆記本出貨量逆勢增長80%，市場份額... 2022-12-04
科技學編程的三個方法
學習了之前的文章之後，我們基本了解了計算機的組成、計算機程序的組成，有了這些基礎後，我們終于可以邁入編程的大門了。在學校學習時，開設課程一般都是編程的語法課，比如譚浩強版的《c語言程序設計》。可當我們學完編程的語法後，會發現真正想要學編程還... 2022-12-16
科技王者最新版本操作最佳設置怎麼弄
王者最新版本操作最佳設置怎麼弄?先打開我們的手機，然後登陸王者榮耀，之後點擊設置按鈕；，我來為大家科普一下關于王者最新版本操作最佳設置怎麼弄?下面希望有你要的答案，我們一起來看看吧!王者最新版本操作最佳設置怎麼弄先打開我們的手機，然後登陸王... 2022-07-19
科技什麼睫毛增長液最好用
很多小仙女應該都有睫毛短而稀疏的困擾。光是睫毛短就算了，有的小仙女還是腫腫的内雙，睫毛完全被夾在了雙眼皮褶之間，簡直無語。今天來給大家測評幾款睫毛增長液。首先來了解下，什麼是睫毛增長液？睫毛增長液：内含的生物酶“EPM”由10個氨基酸組成，... 2023-01-08
科技舟山耐高溫皮帶輸送機加工
磨粉機傳動裝置：從電動機、減速機到磨機主機，所有的傳動能源來自電動機，通過皮帶之間連接時下機械動能之間的傳遞，磨粉機主機皮帶和我們常見的傳動皮帶不太一樣，磨粉機皮帶帶的一面為等距離齒的同步帶，另一面為帶有等距離楔的多楔帶，集同步帶和多楔帶的... 2022-12-03
科技如何在電腦桌面上共享文件夾
如何在電腦桌面上共享文件夾?在學習或者工作中，經常會碰到文件傳輸的問題，如果設置好了共享文件夾，在局域網内的所有用戶都可以随時去用裡面的文件或資料，從而大大提高工作效率下面将按照步驟教大家怎麼設置共享文件夾，接下來我們就來聊聊關于如何在電腦... 2022-10-06
科技國内手機維修培訓機構排行
學員學習手機維修，首先選擇要到實地去參觀，1.看學校規模、2.看環境、3.看老師素質對學生是否熱情、4.看在校的學生是否在上課、5.看學校是否有辦學資質、6.看辦學範圍是否包含有手機維修專業、7.看學校教學場地硬件設施，比如熱風槍，烙鐵，電... 2023-02-07
科技手機k歌錄音麥克風得勝
直播、K歌APP鋪天蓋地地來襲給喜歡唱歌表演的人提供了發揮才藝的舞台，身邊喜歡唱歌的朋友們都會經常在朋友圈曬上一曲。這個時候配備一款能夠呈現出完美聲音的手機麥克風是非常有必要的。想要随時随地盡情K歌，還要擁有能與KTV媲美的音質？你就差這個... 2023-03-30
科技京東百億家裝補貼
于日前全面啟動的“京東11.11全球熱愛季”，迎來了澎湃的服務消費熱潮。數據顯示，京東11.11開門紅前10分鐘，京東居家“省心裝”打标産品成交額同比增長230%，送裝拆舊、30天價保和72小時極速換新成為最受歡迎的服務項。其中，支持送裝拆... 2023-01-24
科技微信恢複某個人全部聊天内容記錄
步驟1打開微信app，點擊右上角“”，在搜索框内輸入“recover”，點擊“微信修複工具”。步驟2在微信修複工具界面點擊“故障修複”，點擊“聊天記錄”，在彈出的界面點擊“确定”即可。, 2023-02-27
科技英偉達3050顯卡什麼時候出的
Kepler架構在英偉達的發展曆史上占據了很重要的一個位置，至今很多蘋果MacPro或專業用戶仍在使用Kepler（開普勒）架構的顯卡，不知不覺Kepler架構自發布以來，已走過近十年了，時間相當長了。近日，根據英偉達面向數據中心客戶的驅動... 2022-12-26
科技紅米note默認數據哪個卡
紅米note默認數據哪個卡?1、右鍵點“我的電腦”，左鍵點“屬性”，點選“高級”選項卡，點“性能”裡的“設置”按鈕，再選“高級”選項卡，點下面的“更改”按鈕，所彈出的窗口就是虛拟内存設置窗口，一般默認的虛拟内存是從小到大的一段取值範圍，這就... 2023-02-04
科技通話記錄不小心删除怎麼恢複
誤删的手機通話記錄如何恢複？将重要的手機通話記錄删了還能恢複嗎？尤其是當某些号碼還未及時存儲備份的時候，就清空了手機上的通話記錄列表，面對這樣的情況真的讓人很糟心。那麼，有什麼方法能找回這些誤删的手機通話記錄呢？恢複手機通話記錄的具體方法又... 2022-12-21

tft每日頭條

> 科技

> 五招教你擁有數據分析思維

五招教你擁有數據分析思維

相关科技资讯推荐

热门科技资讯推荐

网友关注