數據标準化是将操作字段按照給定的方法完成由原始數據到新數據的映射,以此消除多字段組合分析情況下存在的數量級和量綱的不同造成的不利影響,算法支持最大最小歸一化、最大值歸一化及Z标準化等方法。
算法思想數據标準化是數據建模中數據預處理步驟,在某些比較和評價的指标處理中經常會用到去除數據單位限制,将其轉化為無量綱的純數值,便于不同單位或量級指标能夠比較和加權,算法支持最大最小歸一化、最大值歸一化及Z标準化等方法。
具體介紹如下1、最大最小歸一化最大最小歸一化是将數據轉化到給定的[Min,Max]範圍之内。公式如下
其中Xmin為x特征的最小值,Xmax為x特征的最大值.
2、最大歸一化最大歸一化是将數據轉化到[-1,1]範圍之間。公式如下
其中|X|max為x特征的絕對值的最大值。
3、z标準化z标準化也叫标準差标準化,經過處理的數據符合标準正态分布,即均值為0,标準差為1.
其中Mean(x)為x特征的均值,Std(x)為x特征的标準差。
數據格式:數值型字段;
參數說明
結果說明
對指定的屬性進行标準化處理
Tempo數據建模工具演示實例:利用數據建模工具構建如下流程:
【文件輸入】節點配置如下:
【數據标準化】節點配置如下:
流程運行結果如下:
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!