tft每日頭條

 > 科技

 > 數據規範化的過程

數據規範化的過程

科技 更新时间:2025-02-01 09:46:53

在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特征來表征的。比如在預測房價的問題中,影響房價y的因素有房子面積x1、卧室數量x2等。這裡的x1,x2又被稱為特征。很顯然,這些特征的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那麼他們對房價的影響程度将是不一樣的,而通過标準化處理,可以使得不同的特征具有相同的尺度(Scale)。

數據規範化的過程(解析數據标準化)1

圖1

下圖最左是原始數據;中間是中心化數據,就是平移到原點;最右是z-score規範後的數據,均值為0,方差為1。

一、數據标準化的意義:

1、數據的量綱不同;數量級差别很大

經過标準化處理後,原始數據轉化為無量綱化指标測評值,各指标值處于同一數量級别,可進行綜合測評分析。

如果直接用原始指标值進行分析,就會突出數值較高的指标在綜合分析中的作用,相對削弱數值水平較低指标的作用。

2、避免數值問題:太大的數會引發數值問題。

3、平衡各特征的貢獻

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。

如果一個特征值域範圍非常大,那麼距離計算就主要取決于這個特征,從而與實際情況相悖(比如這時實際情況是值域範圍小的特征更重要)。

4、一些模型求解的需要:加快了梯度下降求最優解的速度

二、數據标準化的方法

1、Min-Max标準化

x = (x - min)/(max - min)

通過對數據的每一個維度的值進行重新調節,使得最終的數據向量落在 [0,1]區間内

應用場景:

這種歸一化方法比較适用在數值比較集中的情況。但是,如果max和min不穩定,很容易使得歸一化結果不穩定,使得後續使用效果也不穩定,實際使用中可以用經驗常量值來替代max和min。而且當有新數據加入時,可能導緻max和min的變化,需要重新定義。

在不涉及距離度量、協方差計算、數據不符合正太分布的時候,可以使用該方法。

在處理自然圖像時,我們獲得的像素值在 [0,255] 區間中,常用的處理是将這些像素值除以 255,使它們縮放到 [0,1]中.

2、标準差标準化,也叫z-score标準化

x =(x - u)/σ u是均值 σ是标準差

處理後的數據符合标準正态分布。該标準化方法廣泛用于機器學習算法(SVM,logistic regression,neural networks)

應用場景

在分類、聚類,算法中需要使用距離來度量相似性的時候、或者使用PCA(協方差分析)技術進行降維的時候,Z-score 标準化表現更好。

3、非線性歸一化

經常用在數據分化比較大的場景,有些數值很大,有些很小。通過一些數學函數,将原始值進行映射。該方法包括 log、指數,正切等。需要根據數據分布的情況,決定非線性函數的曲線。

(1)log函數轉化到[0,1]。數據要落到[0,1]區間,要求原數據大于等于1

(2)atan反正切函數。要想數據落到[0,1],數據應該大于等于0,小于0的數據被映射到[-1,0]

(3)logistic函數 | sigmoid函數:該函數的曲線是S型的,值域在[0,1]範圍

三、處理哪些問題時需要對數據進行标準化?

1、分類(如k-nearest neighbors算法)

2、聚類(如k-means算法)

使用距離(如歐幾裡得距離)來判定樣本之間的相似度的分類和聚類問題,都要進行數據規範化。

3、支持向量機SVM(support vector machine),邏輯回歸logistic regression, perceptron, neural networks etc.

上面這些問題使用梯度優化來獲得最優解。比如支持向量機使用梯度優化得到将樣本數據分開的最優超平面。梯度下降優化算法

4、主成分分析

總之,涉及到距離、協方差(比如PCA本質涉及協方差計算)、梯度計算的問題要進行标準化。

距離、協方差,是因為要使各特征貢獻一緻所以使用标準化

梯度計算,是因為如果不标準化,模型的收斂會很慢或者不會收斂到最優解。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved