針對樣本數據的描述性探索分析,是我們模型開發任務的一個必要步驟,其中特征變量之間的相關性量化評估,往往是數據分析處理的重要内容,隻有對樣本特征數據相關程度的整體把握,才能為特征性能評價與特征字段篩選提供合理的參考依據,也為特征工程的實施提供更有效的保障。但是,在實際業務場景中,我們很多情況下對樣本數據的特征相關性進行分析時,隻是通過最常用的pearson系數來分析數值型自變量的相關性能,這裡暫且不考慮pearson系數針對數值型變量所應當具備的分布類型,僅對數值型自變量的相關性能評估,在數據分析任務中并沒有全面考慮不同特征的分布類型、取值維度、變量屬性等情況。因此,圍繞樣本數據不同特征類型場景下的變量相關性解析,是我們從事數據分析工作應當具備的思維之一,也是數據測試評估、建模樣本處理等任務的必備内容。
結合以上實際場景描述,本文根據不同特征類型的情形,從多個維度來全面分析下特征變量之間的相關性程度,詳細區分特征的取值類型(連續型和離散型)、字段屬性(自變量與因變量)、類别數量(二分類與多分類)等常見組合,同時采用相關圖表可視化形式展示相關結果,具體分析維度及其方法如下:
(1)連續自變量與連續自(因)變量——相關系數
(2)連續自變量與二分類因變量——z檢驗
(3)二分類自變量與連續因變量——t檢驗
(4)多分類自變量與連續因變量——方差分析
(5)分類自變量與分類自(因)變量——卡方檢驗
接下來我們圍繞以上分析維度,來探索下不同場景特征相關性的實現過程,為了更好的理解各種情形的原理邏輯與處理方式,現結合實際樣本數據通過python實操來展開詳細分析。實例數據包含10000條樣本與8個特征,具體樣例如圖1所示,其中ID為樣本主鍵,X1~X5為特征變量,Y1、Y2為目标變量,為了區分不同特征類型的組合情況,各字段的取值類型與業務屬性如圖2所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖1 樣本數據
編輯
添加圖片注釋,不超過 140 字(可選)
圖2 特征類型
1、連續自變量與連續自(因)變量
在樣本數據中,連續自變量為X3、X4、X5,連續因變量為Y2,對其相關性分析最常用的方法是pearson系數,在python環境中可以通過corr(method='pearson')函數來實現。pearson相關系數的取值範圍為[-1,1],絕對值越大說明相關性越強,正值代表正相關,負值代表負相關。在實際業務場景中,通常以阈值0.5~0.7來判斷特征變量間相關性程度的強弱,也是特征相關性篩選的參考标準。以上連續自變量之間的pearson相關系數結果具體如圖3所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖3 特征相關系數
由以上結果可知,連續變量X3、X4、X5、Y2之間的相關系數均表現較低,最大值也僅有0.277892,說明各字段的相關性較弱。這裡需要注意的是,針對特征自變量X3、X4、X5來講,變量的相關性較弱可以有效降低模型的共線性問題,這也是我們期望的指标結果,而對于自變量X3、X4、X5與因變量Y2之間的相關程度很弱,并非實際建模所需的,原因是自變量與因變量的相關性較差,在很大程度上說明自變量對因變量的信息關聯度一般。
2、連續自變量與二分類因變量
針對連續自變量X3、X4、X5,以及二分類因變量為Y1,常采用z檢驗來分析特征組合的相關性。我們先通過箱線圖來預覽下各自變量與因變量的分布關系,然後再對各字段間的z檢驗結果進行輸出,具體實現過程如圖4所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖4 特征z檢驗實現
通過以上過程得到各自變量X3、X4、X5與因變量Y1的箱線圖結果如圖5所示,可見在因變量Y1二分類取值情況下,各自變量的中位數分布有較明顯的差異,但具體量化評估特征分布的差異性,需要進一步通過各變量組合的t檢驗結果來說明,具體結果如圖6所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖5 特征箱線圖分布
編輯
添加圖片注釋,不超過 140 字(可選)
圖6 特征z檢驗結果
從上圖可知,變量X3、X4、X5與Y1的z檢驗結果p值分别為1.62797843e-09、9.4355311e-20、7.77242436e-31,在默認置信度為0.05的情況下,各變量組合p值均遠小于0.05,拒絕原假設,通過顯著性檢驗,也就是自變量X3、X4、X5與因變量Y1都有較強的相關性。
3、二分類自變量與連續因變量
樣本數據中的二分類自變量為X1,連續因變量為Y2,這種特征組合場景常采用t檢驗的方式來評估其相關性。我們仍然采用箱線圖形式來展示自變量X1與因變量Y2的分布情況,然後再對特征組合進行t檢驗分析,具體實現過程如圖7所示,箱線圖與t檢驗結果分别如圖8、圖9所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖7 特征t檢驗實現
編輯
添加圖片注釋,不超過 140 字(可選)
圖8 特征箱線圖分布
編輯
添加圖片注釋,不超過 140 字(可選)
圖9 特征t檢驗結果
從以上結果可知,二分類自變量X1與連續因變量Y2的箱線圖分布較明顯的體現出二者的差異性,而通過t檢驗結果對應的p值為8.6005009e-08,遠小于置信度0.05,拒絕原假設,通過顯著性檢驗,說明二分類自變量X1與連續因變量Y2之間具有較強的相關性。
4、多分類自變量與連續因變量
對于多分類自變量X2與連續因變量Y2的特征組合情形,通常采用方差分析來評估變量之間的相關性,首先來展示下變量X2與Y2的箱線圖分布情況,具體可視化結果如圖10所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖10 特征箱線圖分布
從上圖結果初步可知,多分類自變量X2與連續因變量Y2具有顯著的差異性,為了進一步通過量化指标來驗證結論,下面采用方差分析的方式來評估。對于方差分析,在實踐中有兩種思路可以完成,一種是單因素方差分析的f檢驗,另一種是構建線性回歸模型對其方差分析,這裡我們采用單因素方差分析f檢驗的方式來完成分析,具體實現過程如圖11所示,輸出結果如圖12所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖11 特征方差分析實現
編輯
添加圖片注釋,不超過 140 字(可選)
圖12 特征方差分析結果
通過單因素方差分析f檢驗結果可知,p值(3.296516212089719e-15)遠小于置信度0.05,拒絕原假設,通過顯著性檢驗,說明多分類自變量X2與連續因變量Y2之間具有較強的相關性。
5、分類自變量與分類自(因)變量
針對樣本數據中分類自變量X1、X2,以及分類因變量Y1,這種特征組合情形的相關性分析通常采用卡方檢驗的方式來實現,這裡我們選取X1、X2變量組合來進行介紹。為了更形象體現出變量之間的分布關系,我們采用堆疊圖的形式展現變量X1與X2的數據分布,具體可視化結果如圖13所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖13 特征堆疊圖分布
由上圖結果可以直觀的了解到分類變量X1與X2的分布形态以及取值概率情況,若需要量化分析變量之間的相關性,需要通過卡方檢驗方式來評估,具體實現過程如圖14所示,輸出結果如圖15所示。
編輯
添加圖片注釋,不超過 140 字(可選)
圖14 特征卡方檢驗實現
編輯
添加圖片注釋,不超過 140 字(可選)
圖15 特征卡方檢驗結果
通過以上結果可知,變量X1與X2的卡方檢驗p值(6.016053087941892e-78)遠小于置信度0.05,拒絕原假設,通過顯著性檢驗,說明分類變量X1與分類變量X2之間具有較強的相關性。
綜合以上内容,我們圍繞實際場景的多維度特征類型情形,全面分析了不同特征變量之間相關性分析的解決方法,詳細介紹了特征在取值類型(連續型和離散型)、字段屬性(自變量與因變量)、類别數量(二分類與多分類)等組合下的相關性評價方式,具體包括連續自變量與連續自(因)變量、連續自變量與二分類因變量、二分類自變量與連續因變量、多分類自變量與連續因變量、分類自變量與分類自(因)變量的細分場景,對應的分析方法包括相關系數、z檢驗、t檢驗、方差分析、卡方檢驗等。這些有針對性的解決方法,可以有效解決實際業務場景特征相關性評估任務,為數據建模的變量篩選提供更合理的分析依據,這正是我們日常開展數據分析工作所需的重要思維與方法。
為了便于大家全方位掌握不同場景下的特征相關性分析方法與實現過程,本文額外附帶了與以上内容同步的樣本數據與python代碼,供大家參考學習,詳情請移至知識星球查看相關内容。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
...
~原創文章
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!