本篇内容讨論的是數據特征處理中數據标準化方案,相比于在【數據特征處理之數值型數據(歸一化)】中介紹的歸一化方案由于自身的不足而導緻的應用場景受限(數據量較小的工程、不穩定),數據标準化方案幾乎克服了特征極值的影響,且完全适用于數據工程較大的場景。
本文内容雖然很基礎,但為了更加形象的理解知識内容,所以開始還是給出知識點的邏輯位置
通過特定的統計方法(數學方法)将待處理數據轉換為算法要求的數據的這個過程稱為特征處理。
對不同特征維度的伸縮變換使得不同度量之間的特征具有可比性
在數據量較多的場景比較穩定(适用于現代嘈雜大數據場景)
對于數據标準化,其數學(統計學)方法為
上述公式中,X’為标準化後的數據,mean為種特征的均值,σ為标準差。σ标準差理論計算公式為:
其中,n為每個特征的樣本個數,mean依然為每種特征的均值,var在統計學中用來表示方差,其效果作用于每一列(劃重點)
借助機器學習中的sklearn模塊來完成數據的标準化特征處理
上述縮放結果是借助機器學習中的sklearn模塊來完成的,完整的代碼如下
# -*- coding:utf-8 -*-
# @Author: 數據與編程之美
# @File: standard_scaler.py
from sklearn.preprocessing import StandardScaler
def standard_scaler():
std = StandardScaler()
data = std.fit_transform([[425, 42, 0.16],
[544, 66, 1.28],
[509, 75, 0.87],
[496, 60, 0.99],
[580, 23, 1.15]])
print(data)
if __name__ == "__main__":
standard_scaler()
數據标準化後的特點:
數據标準化後的數據其每種特征的所有樣本均值為0,方差、标準差為1。
數據标準化後沒有改變數據的幾何距離,即沒有改變數據的分布(重點)。
上述内容便是數據特征處理中的數據标準化理論、操作流程。标準化由于自身的大數據量特性,因此很适合現今的諸多大數據量場景。
---END---
首發地址: 公衆号:數據與編程之美
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!