tft每日頭條

 > 科技

 > 數據預處理流程

數據預處理流程

科技 更新时间:2025-04-16 14:44:27

為什麼要做數據預處理

數據預處理(data preprocessing)

現實世界中數據大體上都是不完整,不一緻的髒數據,無法直接進行數據挖掘,或挖掘結果差強人意。為了提高數據挖掘的質量産生了數據預處理技術。數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。

數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。

數據預處理在衆多深度學習算法中都起着重要作用。實際情況中,将數據做歸一化和白化處理後,很多算法能夠發揮最佳效果。但是預處理的精确參數并非顯而易見,一般需要嘗試。

一、數據歸一化

數據預處理中标準的第一步是數據歸一化。這一步通常視具體情況選擇。歸一化的一般方法有如下3種:

1.簡單縮放

2.逐樣本均值消減(也稱為移除直流分量)

3.特征标準化(使數據集中所有特征都具有零均值和單位方差)

在基于重構的模型中,損失函數有一項是用于懲罰那些與原始輸入數據差異較大的重構結果(譯注:以自動編碼機為例,要求輸入數據經過編碼和解碼之後還能盡可能的還原輸入數據)。如果 epsilon 太小,白化後的數據中就會包含很多噪聲,而模型要拟合這些噪聲,以達到很好的重構結果。因此,對于基于重構的模型來說,對原始數據進行低通濾波就顯得非常重要。

提示:如果數據已被縮放到合理範圍(如[0,1]),可以從epsilon = 0.01或epsilon = 0.1開始調節epsilon。

>>>>

2.2基于正交化的ICA模型

對基于正交化ICA(獨立主元分析)的模型來說,保證輸入數據盡可能地白化(即協方差矩陣為單位矩陣)非常重要。這是因為:這類模型需要對學習到的特征做正交化,以解除不同維度之間的相關性(詳細内容請參考 ICA 一節)。因此在這種情況下,epsilon 要足夠小(比如 epsilon = 1e − 6)。

提示:我們也可以在PCA白化過程中同時降低數據的維度。這是一個很好的主意,因為這樣可以大大提升算法的速度(減少了運算量和參數數目)。确定要保留的主成分數目有一個經驗法則:即所保留的成分的總方差達到總樣本方差的 99% 以上。(詳細内容請參考PCA )

注意: 在使用分類框架時,我們應該隻基于練集上的數據計算PCA/ZCA白化矩陣。需要保存以下兩個參數留待測試集合使用:(a)用于零均值化數據的平均值向量;(b)白化矩陣。測試集需要采用這兩組保存的參數來進行相同的預處理。

三、具體應用注意事項

1)大圖像。采用基于 PCA/ZCA 的白化方法是不切實際的,因為協方差矩陣太大。在這些情況下我們退而使用 1/f 白化方法。

2)自然灰度圖像。具有平穩特性,我們通常在第一步對每個數據樣本分别做均值消減(即減去直流分量),然後采用 PCA/ZCA 白化處理,其中的 epsilon 要足夠大以達到低通濾波的效果。

3)彩色圖像,色彩通道間并不存在平穩特性。因此我們通常首先對數據進行特征縮放(使像素值位于 [0,1] 區間),然後使用足夠大的 epsilon 來做 PCA/ZCA。注意在進行 PCA 變換前需要對特征進行分量均值歸零化。

4)音頻數據 (MFCC 和頻譜圖),每一維度的取值範圍(方差)不同。例如 MFCC 的第一分量是直流分量,通常其幅度遠大于其他分量,尤其當特征中包含時域導數 (temporal derivatives) 時(這是音頻處理中的常用方法)更是如此。因此,對這類數據的預處理通常從簡單的數據标準化開始(即使得數據的每一維度均值為零、方差為 1),然後進行 PCA/ZCA 白化(使用合适的 epsilon)。

5)MNIST手寫數字。數據集的像素值在 [0,255] 區間中。我們首先将其縮放到 [0,1] 區間。實際上,進行逐樣本均值消去也有助于特征學習。注:也可選擇以對 MNIST 進行 PCA/ZCA 白化,但這在實踐中不常用。

四、一些常見的名稱中英文對照

數據預處理流程(數據預處理規則)1

歸一化 normalization

白化 whitening

直流分量 DC component

局部均值消減 local mean subtraction

消減歸一化 sparse autoencoder

縮放 rescaling

逐樣本均值消減 per-example mean subtraction

特征标準化 feature standardization

平穩 stationary

Mel倒頻系數 MFCC

零均值化 zero-mean

低通濾波 low-pass filtering

基于重構的模型 reconstruction based models

自編碼器 autoencoders

稀疏編碼 sparse coding

受限Boltzman機 RBMs

k-均值 k-Means

長尾 long tail

損失函數 loss function

正交化 orthogonalization

數據預處理流程(數據預處理規則)2

點擊“閱讀原文”查看更多精彩

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved