數據預處理流程-tft每日頭條

數據預處理流程

科技更新时间:2025-07-04 06:28:40

為什麼要做數據預處理

數據預處理（data preprocessing）

現實世界中數據大體上都是不完整，不一緻的髒數據，無法直接進行數據挖掘，或挖掘結果差強人意。為了提高數據挖掘的質量産生了數據預處理技術。數據預處理有多種方法：數據清理，數據集成，數據變換，數據歸約等。

數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。

數據預處理在衆多深度學習算法中都起着重要作用。實際情況中，将數據做歸一化和白化處理後，很多算法能夠發揮最佳效果。但是預處理的精确參數并非顯而易見，一般需要嘗試。

一、數據歸一化

數據預處理中标準的第一步是數據歸一化。這一步通常視具體情況選擇。歸一化的一般方法有如下3種：

1.簡單縮放

2.逐樣本均值消減(也稱為移除直流分量)

3.特征标準化(使數據集中所有特征都具有零均值和單位方差)

在基于重構的模型中，損失函數有一項是用于懲罰那些與原始輸入數據差異較大的重構結果（譯注：以自動編碼機為例，要求輸入數據經過編碼和解碼之後還能盡可能的還原輸入數據）。如果 epsilon 太小，白化後的數據中就會包含很多噪聲，而模型要拟合這些噪聲，以達到很好的重構結果。因此，對于基于重構的模型來說，對原始數據進行低通濾波就顯得非常重要。

提示：如果數據已被縮放到合理範圍(如[0,1])，可以從epsilon = 0.01或epsilon = 0.1開始調節epsilon。

>>>>

2.2基于正交化的ICA模型

對基于正交化ICA(獨立主元分析)的模型來說，保證輸入數據盡可能地白化（即協方差矩陣為單位矩陣）非常重要。這是因為：這類模型需要對學習到的特征做正交化，以解除不同維度之間的相關性（詳細内容請參考 ICA 一節）。因此在這種情況下，epsilon 要足夠小（比如 epsilon = 1e − 6）。

提示：我們也可以在PCA白化過程中同時降低數據的維度。這是一個很好的主意，因為這樣可以大大提升算法的速度（減少了運算量和參數數目）。确定要保留的主成分數目有一個經驗法則：即所保留的成分的總方差達到總樣本方差的 99% 以上。(詳細内容請參考PCA )

注意: 在使用分類框架時，我們應該隻基于練集上的數據計算PCA/ZCA白化矩陣。需要保存以下兩個參數留待測試集合使用：(a)用于零均值化數據的平均值向量；(b)白化矩陣。測試集需要采用這兩組保存的參數來進行相同的預處理。

三、具體應用注意事項

1）大圖像。采用基于 PCA/ZCA 的白化方法是不切實際的，因為協方差矩陣太大。在這些情況下我們退而使用 1/f 白化方法。

2）自然灰度圖像。具有平穩特性，我們通常在第一步對每個數據樣本分别做均值消減（即減去直流分量），然後采用 PCA/ZCA 白化處理，其中的 epsilon 要足夠大以達到低通濾波的效果。

3）彩色圖像，色彩通道間并不存在平穩特性。因此我們通常首先對數據進行特征縮放（使像素值位于 [0,1] 區間），然後使用足夠大的 epsilon 來做 PCA/ZCA。注意在進行 PCA 變換前需要對特征進行分量均值歸零化。

4）音頻數據 (MFCC 和頻譜圖)，每一維度的取值範圍（方差）不同。例如 MFCC 的第一分量是直流分量，通常其幅度遠大于其他分量，尤其當特征中包含時域導數 (temporal derivatives) 時（這是音頻處理中的常用方法）更是如此。因此，對這類數據的預處理通常從簡單的數據标準化開始（即使得數據的每一維度均值為零、方差為 1），然後進行 PCA/ZCA 白化（使用合适的 epsilon）。

5）MNIST手寫數字。數據集的像素值在 [0,255] 區間中。我們首先将其縮放到 [0,1] 區間。實際上，進行逐樣本均值消去也有助于特征學習。注：也可選擇以對 MNIST 進行 PCA/ZCA 白化，但這在實踐中不常用。

四、一些常見的名稱中英文對照

數據預處理流程（數據預處理規則）1

歸一化 normalization

白化 whitening

直流分量 DC component

局部均值消減 local mean subtraction

消減歸一化 sparse autoencoder

縮放 rescaling

逐樣本均值消減 per-example mean subtraction

特征标準化 feature standardization

平穩 stationary

Mel倒頻系數 MFCC

零均值化 zero-mean

低通濾波 low-pass filtering

基于重構的模型 reconstruction based models

自編碼器 autoencoders

稀疏編碼 sparse coding

受限Boltzman機 RBMs

k-均值 k-Means

長尾 long tail

損失函數 loss function

正交化 orthogonalization

數據預處理流程（數據預處理規則）2

點擊“閱讀原文”查看更多精彩

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技如何查看iphone手機中照片屬性
如何查看iphone手機中照片屬性?iPhone系統相冊不支持查看圖片詳細參數，即不能查看圖片大小、尺寸、拍攝時間、拍攝地點等信息，下面我們就來說一說關于如何查看iphone手機中照片屬性?我們一起去了解并探讨一下這個問題吧!如何查看iph... 2022-06-15
科技手機九鍵拼音怎麼用
拼音九鍵就是打字的“按鍵”變成九個數字鍵盤，由于可以實現“盲打”，是大多數安卓手機用戶普遍使用的一種輸入法之一。拼音9鍵的每個“按鍵”複用3-4個字母，不需要記住26個字母的準确分布，隻需要記住26個字母哪組字母分布在9宮格的哪一格上就可以... 2023-01-08
科技手機解密碼鎖的方法
手機解密碼鎖的方法?在輸入密碼界面連續輸錯5次鎖屏密碼，彈出“手機已鎖定”後，可點擊屏幕上的“忘記密碼”，輸入密保修改鎖屏密碼，我來為大家科普一下關于手機解密碼鎖的方法?下面希望有你要的答案，我們一起來看看吧!手機解密碼鎖的方法在輸入密碼界... 2022-06-18
科技對目前傳統電商的理解
淺談電商的發展二十多年前提及電商更多人認為多麼不靠譜，十年前提及電商更多人認為無所不能，現在提及電商更多人認為一地雞毛，那我們今天一起來看下電商的前世今生！萌芽期（1998-2002）物資電商這個時期有一批人去了美國去研究微機這個商機，意外... 2023-01-03
科技各手機品牌售後維修
根據工信部最新數據顯示，中國移動電話用戶總數達到13.04億戶，其中4G用戶總數達到6.46億戶。據估計，手機的維修率在10%至15%，潛在的市場需求巨大。12月8日，千機網對外宣布推出手機免費服務包，“不換配件不收錢”來勢洶洶。同時，包括... 2022-11-10
科技背帶褲隻有兩個扣子怎麼安裝
背帶褲的扣子穿段時間後很容易壞了，幾百塊錢的背帶褲就因為這一個扣子就報廢了，簡直是有點不甘心，到底背帶褲的扣子怎麼裝？小編就給您提供個背帶褲扣子的安裝圖，讓您馬上就會安裝背帶褲的扣子。背帶褲的扣子分為兩部分，一個是背帶上的葫蘆扣拉心扣，另一... 2022-12-17
科技手機沒聲音是怎麼回事
手機沒聲音是怎麼回事?最常見的就是音量沒有打開，手機調成振動很多人調成震動後經常忘記修改回來，而手機放在枕頭上，振動時聲音很小，結果造成沒有聽到這種情況隻需要重新打開音量就好，今天小編就來說說關于手機沒聲音是怎麼回事?下面更多詳細答案一起來... 2022-06-14
科技華為手機mate9使用期限
華為Mate9目前來說是最時尚又高檔的手機之一了。我們花三四千元買一部手機回來，最起碼要知道它是什麼時候生産出廠吧？下面我就來告訴大家怎麼查看Mate9的出廠日期。進入手機中的【設置】——【關于手機】中，然後點擊【狀态信息】，之後會看到序列... 2022-12-08
科技孩子們的手機是哪款最好
【PConline導購】随着智能手機市場的發展，越來越多廠商開始重視細分品類，如老人手機、學生手機等産品紛紛出現。以學生手機為例，手機廠商為學生群體設計了各種特色功能，有使用管控、學習資源、拍照搜題等，為了學生的學習真是操碎了心。對不太了解... 2022-11-15
科技 realmex50pro5g試用
2020年的第一場手機發布會由realmeX50揭開面紗。從屏幕尺寸規格，前置雙攝，後置四攝。屏幕刷新率的提升，乃至售價都是圍繞着友商K305G版本來的，看來今年5G市場必定血雨腥風。那麼我們通過一篇測評文章來帶你了解一下這款隻說真話的真我... 2022-12-19
科技客如雲超市收銀系統好用嗎
收銀系統千千萬，常常讓商戶老闆挑得眼花缭亂，不少老闆反饋，不知道怎麼挑選收銀系統軟件才能不踩雷。本期小編收集了市場受歡迎度較高的五個收銀系統軟件，整理了它們各自的優勢和劣勢，供大家參考。第一名：秦絲收銀系統軟件秦絲軟件是進銷存軟件中的佼佼者... 2023-01-26
科技
視頻沒有聲音怎麼修複？視頻沒有聲音原因有很多，可能是文件損壞、音頻損壞、文件損壞、聲卡損壞。當我們排除了設備問題後，視頻文件本身的問題難以解決。這時候我們可以用“失易得視頻修複”進行修複。失易得視頻修複失易得視頻修複可以修複MP4、M4V、... 2023-02-05
科技蘋果六連wifi打開wlan嗎
不知道大家有沒有留意過自己的手機設置裡無線網的名稱叫什麼？有人說iPhone的是叫Wi-Fi，而安卓手機是WLAN，其實不管用的是iPhone還是安卓手機，甚至是同一型号的手機，都存在有的叫Wi-Fi有的卻叫WLAN的情況，到底誰是假手機？... 2022-12-15
科技珍島智能營銷方向
在數字化轉型背景下，無論對于企業，還是對于市場運營和營銷人員來說，都要構建更科學的市場營銷體系，珍島從智能營銷到運營管理再到企業數字化轉型，打造了一站式數字化工具，幫助企業輕松上手，開啟數字化轉型。比如其中，珍島通過科學的私域運營管理的方式... 2023-02-07
科技 vr與ar技術究竟有何區别
vr與ar技術究竟有何區别?【IT168資訊】由趙麗穎代言的手機品牌ivvi早前推出裸眼3D手機ivviK5，開啟了3D時代，未來ivvi将會在智能3D方面有進一步的動作ivvi手機CEO李斌日前在接受媒體采訪時表示，智能3D是手機發展的下... 2022-12-31
科技迷你世界怎麼做插件包可以無敵
哈喽，小夥伴們大家好。懶人福利來啦！《迷你世界》全新的自定義插件包功能上線喽！這個新功能讓創造更加簡單、省時省力，可以說隻要使用了新插件功能，再搭配資源工坊裡的各種模型，小白也能一秒變身地圖達人！下面我們一起看看全新的自定義插件包到底如何使... 2022-12-09
科技怎麼零基礎學編程
相信很多小夥伴在進入大學之前，對編程一無所知，白紙一張。很長一段時間都挺迷茫，不知道應該怎麼學習編程？見過很多初學編程的小夥伴還沒開始就放棄了，網上鋪天蓋地的學習視頻、教程也會讓我們越來越焦慮。想要從起跑線上赢過所有人，大學四年，就是拉開差... 2023-03-05
科技我的世界基岩版開心牧場
大家好，我是我要吃煎蛋。上期介紹了如何尋找史萊姆，今天給大家介紹如何建造史萊姆農場！建造農場之前我們要了解史萊姆的生成條件和相關特性！史萊姆生成在整個世界（除蘑菇島）40層以下的史萊姆區塊裡史萊姆不會在距離玩家24方塊内生成。如果沒有玩家距... 2023-01-18
科技财務往來對賬單怎麼做
這60張對賬單模闆，當初可真是幫了我大忙呀，要不是得此幫助，我早被老闆開除了，真的是非常好用，我也不吝啬，今天就拿出來分享給所有的财務人，希望對大家能有所幫助！（附會計出納賬務管理系統）想要領取使用的，看文末哦！财務公司對賬單結算對賬單客戶... 2023-01-16
科技 vivo手機反複突然關機重啟
vivo手機反複突然關機重啟?手機經常自動關機重啟，可以嘗試以下方法操作：，今天小編就來說說關于vivo手機反複突然關機重啟?下面更多詳細答案一起來看看吧!vivo手機反複突然關機重啟手機經常自動關機重啟，可以嘗試以下方法操作：若是近期下載... 2022-06-17
科技什麼地方要裝防火窗
随着人們消防安全意識的增強，選擇安裝防火窗的用戶越來越多，那麼大家都知道安裝防火窗時應該注意些什麼嗎[what]？今天小編就帶大家來了解一下[靈光一閃]。一、檢查防火窗在儲存或者運輸過程中有可能會不慎導緻窗框、窗扇翹曲、變形、玻璃破損，所以... 2023-01-03
科技華為折疊機和蘋果x
科技行業新鮮趣事一文速覽，在這裡你可以了解科技熱點、獲悉行業動态，話不多說讓我們一起來看看吧~■酷睿i9-11900K跑分曝光單核性能暴強甩開AMD英特爾酷睿i9-11900K是前陣子CES期間發布的第11代酷睿桌面級處理器的新旗艦，根據英... 2023-02-13
科技 vivoy85a字體大小在哪裡設置
vivoy85a字體大小在哪裡設置?打開手機,找到“設置”一項,然後點擊進入，接下來我們就來聊聊關于vivoy85a字體大小在哪裡設置?以下内容大家不妨參考一二希望能幫到您!vivoy85a字體大小在哪裡設置打開手機,找到“設置”一項,然後... 2022-06-09
科技如何解決電腦中病毒
1、開啟安全模式win7開啟安全模式方法：開機後連續按F8鍵，然後選擇安全模式即可；win10開啟安全模式方法：在桌面點擊開始菜單按鈕，點擊關機鍵，同時按住shift鍵，選擇重啟。之後會出現藍色的恢複頁面，選擇“疑難解答”——“高級選項”，... 2022-11-02
科技舊手機去哪裡處理
生活中，要說哪種東西更新換代速度最快，那非手機這類數碼産品莫屬，基本一年升級一次，有些甚至半年更新一代。新款式的手機一出來，各種高配置的性能确實誘人，往往讓人按捺不住想換新機。新手機新手機确實香，不過原來舊手機從此就“失寵”，往往被閑置在一... 2022-12-04
科技筆記本硬盤接口sata2和sata3...
SATA3屬于SATA2下一代升級版，往下完全兼容，其和USB3.0和USB2.0關系一樣，兩者是互相兼容的。不同的是，SATA3和SATA2傳輸速率不同，最新的SATA3傳輸速率可以達到6Gb/s，而SATA2接口的傳輸速率則為3Gb/s... 2023-03-28
科技造夢西遊4手機版金之祖巫怎麼過
今天小編為大家帶來了《造夢西遊4手機版》使用唐僧職業過水之祖巫的打法攻略，希望這篇攻略能夠幫助大家，我們一起來看看吧！造夢西遊4手機版BOSS會3個技能，其中有一個是血量小于一半時才會觸發，所以BOSS進入半血之後就要注意了BOSS開啟挑戰... 2022-12-27
科技三年級科學小制作小發明
人們制造潛望鏡主要是為科學研究和國防服務的。科學家利用潛望鏡在地下室中觀察火箭的發射；在進行原子物理實驗的時候，科研工作者利用潛望鏡隔着厚厚的保護牆，就能觀察到那些有放射性的危險實驗。實驗認知鏡筒、接頭、鏡頭、橢圓鏡片、藍色貼紙實驗器材實驗... 2022-11-10
科技 mysql數據庫入門實戰
一、數據庫基本認識1、為什麼要有數據庫呢？随着我們互聯網技術的不斷發展，我們對于互聯網的需求也是水漲船高，依稀記得十年前，僅僅是要求在手機上下載的遊戲不超過50M就好或者在網頁上看視頻看電影可以緩存的時間短一些就可以了，然而現在的電腦網速和... 2022-10-22
科技思維導圖在中學數學中的應用
思維導圖是基于對人腦的模拟，所以這一“數據庫”的儲存方式和組織結構和思維導圖的“構圖”方式不謀而合。數學中的形象思維主要包含直觀形象，經驗形象，創新形象，意會形象。利用這些與思維導圖相聯系是可行的。本文以較難的數學為例，講述數學思維導圖的作... 2023-01-18

tft每日頭條

> 科技

> 數據預處理流程

數據預處理流程

相关科技资讯推荐

热门科技资讯推荐

网友关注