batch系統有什麼作用-tft每日頭條

batch系統有什麼作用

生活更新时间:2025-08-10 09:16:46

編者按：對于現代深度神經網絡的訓練來說，如果要用随機梯度下降來收斂，我們一般會選用Mini-Batch，這也是工程界最常用的做法。盡管大批量可以為并行計算提供更多算力空間，但小批量已經被證明了通用性更好，占用内存更少，而且收斂速度更快。那麼，常見的mini-batch從幾十到幾百不等，我們又該怎麼往哪個方向調試呢？近日，智能芯片創業公司Graphcore的兩位工程師就在論文Revisiting Small Batch Training for Deep Neural Networks中給出了建議——2到32之間。

考慮到CPU在結構上就對2的乘方的batch size不友好，因此本文隻針對GPU和專用芯片；另外，論文的實驗是在CIFAR-10、CIFAR-100和ImageNet上做的，對時間序列回歸可能不太适用。

近來，深度神經網絡在許多應用中取得了重大進展，包括計算機視覺、語音識别、自然語言處理，以及用于機器人控制和遊戲玩法的強化學習。

(1)

M是訓練集樣本的總數。上式表示代表真實數據生成分布的損失期望值。

批量梯度下降法（BSD）優化的是參數在整個數據集上的梯度累積情況，而随機梯度下降計算的是基于單個訓練樣本的參數更新值。現在深度學習領域常用的是帶Mini-batch的SGD優化方法，它是這兩種思想的融合：先從訓練集上選擇幾個小批量的訓練樣本，利用單個樣本進行多次叠代，把叠代得出的幾個梯度進行加權平均并求和。這個和就是該mini-batch的下降梯度。

從數學角度看，就是設訓練集的mini-batch為B，每個mini-batch包含m個訓練樣本。通過計算mini-batch的下降梯度，我們要讓它拟合期望值L(θ)，然後從中獲取參數θ的更新情況：

(2)(3)

其中η是學習率。依據這兩個等式，SGD權重更新的平均值是E{η ∆θ} = −η E{∇θL(θ)}。由于batch size是m，所以每個樣本權重更新的期望值就是：

(4)

這意味着随着訓練叠代的進行，對于同一個batch size m，我們要不斷線性增加學習率η來保證每個訓練樣本平均SGD權重更新能始終保持恒定。
學習率的不同選取
對于上節的這個計算結果，本文提出的一個設想是batch size和學習率之間的線性關系其實是不存在的，這其實是用SGD計算mini-batch局部梯度平均值導緻的一種假象。

Wilson＆Martinez之前在論文中指出，現在我們更新參數用的計算方法是等式(3)，它計算的是局部梯度平均值，但以前老版本優化方法計算的卻是局部梯度的和。如果我們用θk處的梯度總和來更新參數，那它可以被表示為：

(5)

對于這種方法，如果batch size增加了，我們隻需保證學習率η˜的固定就可以保持權重更新恒定。這相當于用了線性縮放規則。對比(2)(3)(5)，可以發現新舊版本的區别就在于老版本的學習率η˜=η/m。

如果我們繼續設batch size=m，計算從θk處開始到第k n處的權重更新情況，那根據等式(5)，它就是：

(6)

這時如果batch size=m n，那k 1處的權重就成了這樣：

(7)

對比(6)(7)不難發現，在學習率η˜恒定的情況下，大批量訓練基本上可以被看成是小批量訓練的近似值，它隻是在新舊梯度更替時增加了一些并行性。

上一節我們用平均值時，它給出的結論是用更大的batch size可以提供更“準确”的梯度估計并允許使用更大的學習率。但本節嘗試使用總和後，我們可以發現從保持每單位計算成本更新權重的期望值來看，這可能并非如此。實際上，使用較小batch size可以用最新權重梯度，這反過來又允許我們使用更高的基本學習速率，因為每次SGD更新的方差都較低。這兩個因素都有可能帶來更快更穩健的收斂效果。
實驗對比結果
本節給出了CNN的一些訓練性能的數值結果。更詳細的實驗過程可以參看原文。研究人員用AlexNet和ResNet兩個模型在CIFAR-10、CIFAR100和ImageNet上分别做了測試，對照組為：BN/noBN（有無batch歸一化）、Aug/noAug（有無數據增強）、WU（gradual warmup）。

不同batch size訓練的模型在CIFAR-10上的不同表現

上圖展示了各模型在CIFAR-10上的最佳表現。可以發現，當batch size小于等于32時，各模型的性能還維持在較高水平。對于沒有BN的模型，m=2時它們的性能最佳，這和“學習率的不同選取”那一節的分析一緻，在batch size較小的情況下，模型能基于最新的梯度信息進行更新，效果更快更穩健。而對于做了BN的模型，它們在m=4和m=8時效果更好。

基礎學習率η˜=η/m為各模型提供可靠的收斂效果

上圖展示了AlexNet和ResNet兩個模型的表現。當batch size逐漸增大，為模型提供穩定收斂的基礎學習率η˜=η/m會逐漸減小，這也就說明了為什麼用較大的batch size會訓練出不太好的結果。此外，論文還推導了BN對模型的影響（本文未翻譯此部分，請查詢原文），指出每個模型都有一個最優基礎學習率η˜，但通常它隻能和較小的batch size結合才能實現穩定收斂。這也從側面表明如果batch size過大，我們很可能會優化出一個錯誤的學習率，從而影響模型性能。

雖然實驗的結果是用小批量來提高模型收斂性和準确性更好，但它也會降低可用的計算并行性。所以當硬件受限時，我們也有綜合各個條件慎重考慮。
結論
本文通過實驗證明，在大規模訓練中，對于給定的計算資源，使用小批量可以更好地保證模型的通用性和訓練穩定性。在大多數情況下，batch size小于等于32時模型的最終性能較優，而當batch size=2或4時，模型性能可能會達到最優。

如果要進行batch歸一化處理，或者使用的是大型數據集，這時我們也可以用較大的batch，比如32和64。但要注意一點，為了保證訓練效率，這些數據最好是分布式處理的，比如最好的方法是在多個處理器上分别做BN和随機梯度優化，這樣做的優勢是對于單個處理器而言，這其實還是在做小批量優化。而且根據文章的實驗，BN的最優batch size通常比SGD的還要小。

Yann LeCun讀完這篇論文後，抑制不住内心的激動，在twitter上寫了一句話：

過大的minibatch有害身心

更重要的是

它還會導緻訓練error

所以是朋友，就不要讓自己的朋友用大于32的mini-batch！
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活小年諺語精選
1、二十三竈王爺上天二十四掃房子，二十五糊窗戶，二十六炖大肉，二十七宰公雞，二十八白面發，二十九貼道... 2023-07-05
生活女模走路技巧
1、走姿是站姿的連續行動，行走時，必須連結站姿中除手和腳以外的種種要領。2、走路利用腰力，身材重心宜... 2023-07-05
生活七夕節怎麼過的呀
1、如果是單身，那麼可以約上朋友，一塊去吃上一頓，唱唱歌，娛樂一下，是個不錯的事情，如果你是單身，但... 2023-07-05
生活房貸扣款餘額不足怎麼辦
1、還款日當天餘額不足，這就會有逾期的風險，畢竟這會讓銀行沒法收回足額的貸款。所以，碰到這種情況，沒有什麼其它的解決方法，貸款人必須要1、了解清楚銀行扣款時間，這個可以撥打貸款行服務熱線，咨詢客服；2、趕在銀行扣款之前款賬戶裡存足錢，就算自己沒錢借錢也一定要借到。如果已經超過銀行扣款時間，也必須在當... 2023-07-05
生活酒店如何留住客人
1、滿足客人的個性化需求。客人需求是酒店經營活動的出發點和歸宿。客人的需求多種多樣，客人的喜好與要求往往會與酒店的規定有所不同。在這種情況下，就要求服務人員适當偏離标準操作程序，根據客人的具體要求，靈活地提供個性化服務。2、尋找新機會。哪裡有需求，哪裡就有機會。客人的需求是酒店财富的源泉。客人的需求... 2023-07-05
生活什麼是基金單位淨值
1、基金單位淨值即每份基金單位的淨資産價值，等于基金的總資産減去總負債後的餘額再除以基金全部發行的單... 2023-07-05
生活社保ic卡可以異地辦嗎
1、社保ic卡可以異地辦。2、人社部公開了“關于加強和改進人力資源社會保障領域公共服務的意見”，同時... 2023-07-05
生活手機拍視頻模糊怎麼回事
1、造成模糊的原因：拍視頻時手持不穩定，因晃動帶來的模糊。對焦不成功造成的模糊，有人為因素的手機原因... 2023-07-05
生活鲽魚頭做法是什麼
1、先處理鲽魚頭，将鲽魚頭去鰓，洗淨，由下部一劈為二，腦門處要連着，注意不要斷開。2、入七成熱油中炸透呈金黃色時撈出，控淨油分。3、鍋内加油、把蒜蓉辣醬，蚝油，番茄醬，蔥、姜，醬油，鹽，味精等調味料煸炒，再放入清湯燒開。4、将魚放入。然後用小火焖燒十分鐘左右，等湯汁收的差不多時，将魚鏟出，将剩下的湯... 2023-07-05
生活艾草的花語
1、艾草的花語是和平，是不要在将痛苦加在自己身上。艾草屬于多年生的草本植物，香味濃烈，有較高的藥用價... 2023-07-05
生活檸檬摘果後的修剪方法
1、檸檬摘果後下垂枝長勢更易衰弱，可逐年回縮剪去先端下垂部分，擡高枝群位置，繼續結果。對頂端較多的直... 2023-07-05
生活羊肚的清洗方法
1、清洗羊肚時要先用冷水洗一遍。2、然後将整個羊肚浸泡在加有食用鹽和白米醋的冷水中，浸泡二十分鐘之後... 2023-07-05
生活貓咪為什麼喜歡被人撫摸
第一、跟人類撒嬌貓咪喜歡被人撫摸的原因是信任人類，這是貓咪跟人類撒嬌的一種表現。第二、人類用手撫摸貓咪就跟母貓用舌頭舔小貓的感覺一樣，所以貓咪會覺得很親切。第三、喜歡按摩人們會輕柔地撫摸貓咪的毛發，這在貓咪看來就像是人類對貓咪按摩一樣，所以貓咪會覺得舒服。第四、頭和下巴貓咪總是在梳理自己的毛發，當人... 2023-07-05
生活為什麼銀行的ATM機存錢時會被吞錢
1、操作超時，未在規定時間内取回卡片或鈔票。2、鈔票一次性放入太多，緻使ATM機機器故障”。3、客戶存錢時，将捆錢的紙條、皮筋或硬币放入存鈔口，或鈔票不規整，緻使ATM機機器故障”。4、ATM機老化、部分零件損壞。5、網絡通訊出現故障。 2023-07-05
生活用口罩的方法
1、将顔色淺的一面緊貼我們的臉部，另外，有金屬條的一端是口罩的上方，再将兩端的繩子挂在耳朵上。用雙手... 2023-07-05
生活實木複合門如何選購
1、從賣場看。一般消費者，由于專業知識相對匮乏，無法對産品内部的詳細細節進行仔細的考察，最方便的方法就是看該産品所在的賣場。北京的建材零售業已相當成熟，一些著名的賣場為了維護自己的形象，會對進入賣場的木門品牌仔細篩選。所以，如果該木門品牌在一線賣場類似居然、紅星、藍景麗家)有店面，就得到了這第一分。... 2023-07-05
生活馬桶水垢怎麼去除
1、準備工具，工具很簡單，就是平時使用的馬桶刷子一個還有去五金店裡面購買一種叫做稀鹽酸的液體，注意這種液體是有腐蝕性的，盡量不要接觸皮膚，記住了，是稀鹽酸不是鹽酸，是已經稀釋好的，買錯的話會起反作用，會讓污垢更難清除。2、先看看，馬桶底部沖水的地方有黃色的污垢，很難清洗，先用潔廁靈和藍泡泡清洗了一遍... 2023-07-05
生活炸醬面的做法是什麼
1、稀黃醬、三七開的肥瘦肉丁或者肉餡準備好，姜蔥切成末。2、鍋中多放些油，入蔥姜末小火炸黃出香味。3、先入肥肉丁，煸炒出油。4、再倒入瘦肉丁，煸炒出香味，肉變色。5、倒少量醬油調色，盛出備用。面條下鍋煮熟撈出，澆上拌好的肉醬即可。 2023-07-05
生活玻璃花瓶頑固水漬清除妙招
1、在瓶裡放些紙屑，然後倒進溫鹽水，輕輕晃一會兒，水垢即可除淨。2、可倒入濃度為1%的小蘇打水500... 2023-07-05
生活含山縣美食
含山縣美食有八寶鴨、含城幹絲、烤方肉、蒸鲫魚、三口塘老鵝湯等。1、八寶鴨：色香味俱佳，肥潤而不膩口。肥鴨一隻，宰後去毛洗淨，于尾部開一裂口把内雜及軟骨拿掉，以香糯米、白果或蓮子、闆栗及蔥花等佐料，填進鴨肚，放入鍋内，用少量水，文火炖爛，即可食用。2、含城幹絲：切後，細如線，韌而不斷。幹子制作也很講究，黃豆要細磨、細淋漿，不挑皮子。加工這種幹絲，技藝要相當熟練。質量好的幹子，一塊能剖出13～16層， 2023-07-05
生活 nec型号pc-ly750iw開機密...
1、開機時按F8進入【帶命令提示符的安全】模式，然後輸入【NETUSER+用戶名+123456/AD... 2023-07-05
生活屬龍人的後半生苦嗎
1、屬龍人天生是好命之人，但不是一出生就好的那種，屬于大器晚成型，有着滿滿的後福，尤其後半生享福不斷... 2023-07-05
生活如何做貓咪棉被
1、首先準備家中不要的舊衣服或不要的床單、被罩、剪刀、針線。2、把被單或床單裁剪成長寬一米的正方形的... 2023-07-05
生活蝦皮炒油菜的家常做法
第一、蝦皮用水沖洗幹淨，控幹水分，備用。第二、油菜用手掰成片，用水清洗幹淨，控幹水分。第三、紅幹椒用水清洗幹淨，控幹水分，斜刀切成段。切好蔥，姜，蒜，備用。第四、碗裡放入一小匙兒澱粉，兌水，勾成薄芡。第五、鍋裡放入油加熱，油熱後放入花椒，紅幹椒，蔥，姜，蒜，爆鍋。放入蝦皮小火翻炒，炒出香味。第六、放... 2023-07-05
生活怎麼能看出微信是什麼時候注冊的
查詢微信注冊時間的方法如下：1、第一種方法：QQ郵箱查詢。如果你的微信賬号，是使用QQ賬号登錄的，那... 2023-07-05
生活微信拍别人後面怎麼加字
1、首先我們進入聊天對話框，連續兩次點擊好友頭像，可以看到拍一拍的文字。2、點擊想要更改的好友頭像，... 2023-07-05
生活哪些記錄會導緻征信不良
1、當前有逾期。如果目前有逾期未處理，表示你可能是主觀意識不想還款，或者暫時沒有能力還款，不管哪種情況，都會導緻征信不良，銀行金融機構會直接拒絕你的信貸申請，建議還清欠款後再辦理相關業務。2、兩年内連續3次或累計6次逾期。一般中小額信用貸款，銀行審核主要是參考個人近2年的信用情況，如果兩年内連續三次... 2023-07-05
生活微信拍一拍有趣文字
1、拍了拍我的腿毛并打了個蝴蝶結。2、拍了拍我的肩膀叫了聲爸爸。3、拍了拍我的可愛腦袋說了句我愛你。... 2023-07-05
生活做我女朋友吧表白方式
1、男生巧妙地利用了“會不會”于“願意不願意”進行了一個概念的偷換。2、沉着應對女生的一次正面打擊，... 2023-07-05
生活家常紅燒雞腳的做法
第一、雞腳買回來之後要記得把雞腳上面的指甲全部切掉，并且有一些老皮殘留的話也要去掉，清洗幹淨之後放進開水鍋裡焯一下撈出來。第二、準備幾個幹紅辣椒，姜切片或者切絲，蔥切段，幾個八角，大蒜拍扁或者切片待用。第三、鍋裡倒入食用油燒熱，加入一勺子白糖融化之後把雞腳放進去翻炒，然後加一勺子老抽以及适當食鹽，再... 2023-07-05

tft每日頭條

> 生活

> batch系統有什麼作用

batch系統有什麼作用

相关生活资讯推荐

热门生活资讯推荐

网友关注