tft每日頭條

 > 科技

 > 什麼樣的數據不需要歸一化

什麼樣的數據不需要歸一化

科技 更新时间:2024-08-19 07:16:27

在喂給機器學習模型的數據中,對數據要進行歸一化的處理。

為什麼要進行歸一化處理,下面從尋找最優解這個角度給出自己的看法。

1 例子

假定為預測房價的例子,自變量為面積,房間數兩個,因變量為房價。

那麼可以得到的公式為:

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)1

其中

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)2

代表房間數,

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)3

代表變量

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)2

前面的系數。

其中

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)5

代表面積,

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)6

代表變量

前面的系數。

首先我們祭出兩張圖代表數據是否均一化的最優解尋解過程。

未歸一化:

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)7

歸一化之後

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)8

為什麼會出現上述兩個圖,并且它們分别代表什麼意思。

我們在尋找最優解的過程也就是在使得損失函數值最小的theta1,theta2。

上述兩幅圖代碼的是損失函數的等高線。

我們很容易看出,當數據沒有歸一化的時候,面積數的範圍可以從0~1000,房間數的範圍一般為0~10,可以看出面積數的取值範圍遠大于房間數。

2 影響

這樣造成的影響就是在畫損失函數的時候,

數據沒有歸一化的表達式,可以為:

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)9

造成圖像的等高線為類似橢圓形狀,最優解的尋優過程就是像下圖所示:

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)7

而數據歸一化之後,損失函數的表達式可以表示為:

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)11

其中變量的前面系數幾乎一樣,則圖像的等高線為類似圓形形狀,最優解的尋優過程像下圖所示:

什麼樣的數據不需要歸一化(為什麼要對數據進行歸一化處理)8

從上可以看出,數據歸一化後,最優解的尋優過程明顯會變得平緩,更容易正确的收斂到最優解。

這也是數據為什麼要歸一化的一個原因。

End.

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved