tft每日頭條

 > 科技

 > 輸入數據歸一化帶來的問題

輸入數據歸一化帶來的問題

科技 更新时间:2024-08-12 18:36:37

一、定義

數據标準化(Normalization),也稱為歸一化,歸一化就是将你需要處理的數據在通過某種算法經過處理後,限制将其限定在你需要的一定的範圍内。

數據标準化處理是數據挖掘的一項基礎工作,不同評價指标往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指标之間的量綱影響,需要對數據進行歸一化處理,解決數據指标之間的可比性問題。

二、優點

如上面所說,數據歸一化的目的就是為了把不同來源的數據統一到同一數量級(一個參考坐标系)下,這樣使得比較起來有意義。歸一化使得後面數據的處理更為方便,它有兩大優點:(1)歸一化可以加快梯度下降求最優解的速度,(2)歸一化有可能提高精度。

(1)歸一化提高梯度下降發求解最優解的速度

如下圖,藍色的圈圈表示特征的等高線。其中左圖的兩個特征x1和x2區間相差較大,x1~[0,2000],x2~[1,5],期所形成的等高線在一些區域相距非常遠,當使用梯度下降法求解最優解的時候,很可能垂直等高線走“之字型”路線(左圖紅色路徑),從而導緻需要疊代很多次才能收斂,也可能不收斂。而右圖對兩個原始特征進行了歸一化處理,其對應的等高線顯得很圓,在梯度下降的時候就能很快收斂。因此,如果機器學習使用梯度下降法求解最優解時,歸一化往往是非常有必要的。

輸入數據歸一化帶來的問題(數據歸一化Normalization)1

(2)歸一化有可能提高精度

一些分類器(如KNN)需要計算樣本之間的距離(如歐式距離)。如果一個特征值域範圍非常大,那麼距離計算就要取決于這個特征,如果這時實際情況是值域範圍小的特征更重要,那麼歸一化就要起作用了。

三、歸一化方法

(1)線性歸一化,也稱min-max标準化、離差标準化;是對原始數據的線性變換,使得結果值映射到[0,1]之間。轉換函數如下:

輸入數據歸一化帶來的問題(數據歸一化Normalization)2

這種歸一化比較适用在數值較集中的情況。這種方法有一個缺陷,就是如果max和min不穩定的時候,很容易使得歸一化的結果不穩定,影響後續使用效果。其實在實際應用中,我們一般用經驗常量來替代max和min。

(2)标準差歸一化,也叫Z-score标準化,這種方法給予原始數據的均值(mean,μ)和标準差(standard deviation,σ)進行數據的标準化。經過處理後的數據符合标準正态分布,即均值為0,标準差為1,轉化函數為:

輸入數據歸一化帶來的問題(數據歸一化Normalization)3

(3)非線性歸一化,這種方法一般使用在數據分析比較大的場景,有些數值很大,有些很小,通過一些數學函數,将原始值進行映射。一般使用的函數包括log、指數、正切等,需要根據數據分布的具體情況來決定非線性函數的曲線。

四、結構

(1)深度模型的激活函數

(2)激活函數導緻的梯度消失

(3)批量歸一化

(4)自歸一化神經網絡

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved