動态顯存預分配總容量-tft每日頭條

動态顯存預分配總容量

生活更新时间:2025-07-02 09:50:51

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）1

作者 | 吳斯銘穆永譽

單位| 東北大學自然語言處理實驗室

01 引言

今天給大家介紹的外文精品博客是來自Huggingface研究員關于Reformer模型的講解。該博客從四個方面解讀了Reformer如何使用8GB的顯存完成模型在50萬token的長序列數據上的訓練，包括LSH自注意力、分塊FFN、可逆殘差、Axial位置編碼。該作者還通過實驗測試了各項技術對于内存開銷節省的實際效果。原博客内容較多，本文對其中核心的技術講解進行了概括。

02 作者介紹

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）2

Huggingface研究員：Patrick von Platen

03 譯者說

Transformer模型由于其極強的序列分析能力而呈現出一統NLP和CV的趨勢，但是Transformer在處理長序列時會有很高的内存占用。這些内存占用通常來自以下幾個部分：

1.位置編碼。Transformer可以處理的序列的最長長度被存儲位置編碼的張量的維度大小所限制。常用的解決辦法包括提高張量的維度大小（hidden_size），增強其存儲位置信息的能力從而提高模型處理序列的上限。但與此同時輸出還是超長序列（seq_len），這就導緻序列的表示（seq_len*hidden_size）變得非常大，最終導緻很高的内存開銷。

2.Self-Attention。在解碼時，為了避免重複計算，通常會緩存前面步驟的計算的key和value，當序列長度很長時，緩存結果會占用很多的内存。

3.FFN。FFN會将注意力模塊輸出的序列的表示線性變換為一個比詞嵌入維度更大的表示（seq_len*hidden_size ----> seq_len*ffn_size），随着序列長度的增加，這個表示的大小會急劇增加。

4.為了進行反向傳播而保存的中間結果。訓練模型時，為了通過反向傳播更新模型的參數，需要保留每一層計算的中間結果。當模型變深時，這些中間結果會造成很大的内存開銷。

常用的降低Transformer内存占用的技術包括：量化、模型壓縮、知識蒸餾。而Reformer則是一項針對長序列輸入應用場景的降低Transformer内存占用的工作。Reformer分别從改進模型結構和計算方式的角度出發，探究如何在模型性能、速度、内存占用這三者之間達到一個較好的trade-off。該工作發表于ICLR2020，截止22年6月8日谷歌學術查詢此工作已獲得779次引用。

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）3

另外，一個比較有意思的現象是，如果從速度的角度考慮，在目前的算力下優化Transformer，也是一個memory-bound的問題。本人參與了東北大學自然語言處理實驗室的神經機器翻譯開源項目NiuTrans.NMT，在對NiuTrans.NMT進行性能分析時，我發現數據移動是時間占比最大的操作。另外，MLSys 2021的best paper《Data Movement Is All You Need: A Case Study on Optimizing Transformers》也指出了在Transformer的訓練中，數據移動是瓶頸。我覺得這些現象可以啟示我們，在優化機器翻譯系統時，更多地從内存的角度考慮，或許可以達到事半功倍的效果。

04 原博客精華内容概括

4.1 LSH（局部敏感哈希）自注意力

Reformer使用LSH自注意力作為全局自注意力的一個近似。LSH自注意力的想法是，當序列長度非常長時，一個query隻在某幾個key上的注意力權重會明顯大于0。因此隻對那些和query相似的key進行自注意力操作，在節省顯存的同時，也能得到一個對全局自注意力比較好的近似。

那麼，該如何尋找與query相似的key呢？

Reformer的作者發現共享query和key的投影矩陣不會影響模型性能。在Reformer中，query和key使用同一個投影矩陣構造。因此，尋找與query相似的key簡化成了對query進行聚類的問題。Reformer用餘弦相似度來衡量query間的相似性，并通過LSH算法将query分成若幹個類别。随後，Reformer根據類别重排序列，使在一個類别的query在序列中是相鄰的。最後，Reformer将序列分成若幹子序列，在每段子序列上執行局部自注意力，得到每個query的自注意力表示，并還原序列的順序。這樣，Reformer就通過LSH自注意力得到了全局自注意力的一個近似。

實驗證明随着序列長度的增長，局部敏感哈希自注意力很好地降低了顯存占用。

4.2 分塊FFN

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）4

如圖，從注意力模塊得到的序列的中間表示在FFN中做了一次線性變換之後，會使得這個中間表示的詞嵌入維度大幅升高，這一操作非常消耗顯存容量。比如Transformer Base中，線性變換前中間表示的詞嵌入維度是512，經過一次線性變換後，中間表示的詞嵌入維度就變成2048。而當序列很長時，這個中間表示的大小也會随着序列的增長而急劇增加，這樣的中間表示對顯存容量是個很大的挑戰。然而，我們真的需要保留這麼大的中間表示嗎？讓我們用下圖來分析FFN的計算過程：

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）5

如上圖所示，序列中每個token在FFN中的計算是相互獨立的。這就是說，對于每個token，實際上并不需要保留整個序列的中間表示來完成FFN中的計算。Reformer将原序列分成若幹子序列，在每段子序列上執行FFN，因此減少了中間表示的大小，從而緩解處理長序列時顯存不足的問題。如下圖所示。

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）6

實驗證明随着序列長度的增長，分塊FFN很好地降低了顯存占用。 4.3 可逆殘差 在訓練神經網絡時，由于反向傳播需要根據神經網絡每層的輸入輸出來計算該層的梯度，因此在訓練過程中通常需要保留神經網絡每一層的輸入和輸出，這導緻訓練模型比使用模型進行推理消耗更多的顯存。能不能既避免保留大量的輸入輸出，又正常計算梯度呢？Reformer通過隐式地保留張量之間的運算關系來做到這一點。

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）7

Reformer使用可逆殘差代替了Transformer的殘差連接，以此來節省中間計算結果的顯存占用。如圖所示為可逆殘差的結構，在前向計算時，Transformer每一層在使用了可逆殘差後有兩個輸出，分别是Y1和Y2（同時作為下一層的輸入X1、X2）。由于每一層的中間結果以及輸入都可以由該層的輸出Y1和Y2計算出來，因此該層除了輸出Y1、Y2以外，其它計算結果都是可以在完成該層的前向計算後抛棄的（如圖中的X1、X2、Z、Y），這節省了顯存的使用。由于一個層的輸出Y1、Y2也是下一層的輸入X1、X2，理論上，隻需要保存最後一層的激活，就足夠進行反向傳播。

博客中的實驗顯示，使用可逆殘差後，訓練層數更多的模型所需要的顯存有了明顯下降。

4.4 Axial位置編碼

存儲位置編碼的張量的維度大小決定了模型能處理的序列長度的上限。如果為了處理更長的序列，增加該張量的維度大小，那麼在面對長序列時會使内存占用變得非常大。例如，假設hidden_size是1024，需要處理的序列長度是50M，用來存儲位置編碼的張量的參數量達到了512M，也就是2GB的内存占用。能不能維持一個較小的維度，同時提高模型能處理的序列長度呢？

動态顯存預分配總容量（處理超長序列卻保持極低的顯存占用）8

如圖所示，Reformer通過使用Axial位置編碼，對兩個短序列的位置編碼進行組合來表示長序列位置信息。将兩個短序列視為坐标軸，e'i的Axial位置編碼的值為對應坐标的位置編碼的拼接。Reformer使用的Axial位置編碼在不增加内存占用的情況下，提高了位置編碼可以表示的序列長度。

博客通過實驗證明，Axial位置編碼可以有效降低參數量，減少顯存占用。

詳細精彩内容請參見原文 The Reformer - Pushing the limits of language modeling (huggingface.co)

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活成人咳嗽快速止咳土方
最近忽冷忽熱的天氣，着實把不少人折騰壞了，患上了感冒，還咳個不停。咳嗽雖說不是什麼大病，但咳起來也是真的難受。有時咳得嗓子眼都疼，有時還伴随着胸口悶痛，讓人睡不好又吃不香。今天，小編就給大家支個招，咳嗽時不妨按按身上的這個“止咳開關”——按... 2022-12-31
生活設備集約化管理優缺點
設備集約化管理優缺點?設備管理是企業生産經營管理的重要内容之一隻有加強設備管理工作才能确保生産經營的穩定和發展；隻有加強設備管理工作，才能有效地降低生産成本隻有加強設備管理工作，才能确保企業在激烈的市場競争中立于不敗之地下面結合生産實際談談... 2022-11-15
生活怎樣才能辨别粉條的真假
喜歡吃粉條的朋友，一定對粉條的美味回味悠長，粉條爽滑有嚼頭，是非常好吃的，但是對于粉條，現在不少的無良商家以次充好，為了增加粉條的彈性，在粉條中加入明膠，導緻粉條雖然彈性十足，但是卻失去了口感。因為它的口感吃起來不僅非常的好吃，直接在做菜或... 2022-11-19
生活治蛲蟲最有效的方法
治蛲蟲最有效的方法?小孩子患蛲蟲病，晚間睡前常說肛門奇癢可以采用兩法治此病，接下來我們就來聊聊關于治蛲蟲最有效的方法?以下内容大家不妨參考一二希望能幫到您!治蛲蟲最有效的方法小孩子患蛲蟲病，晚間睡前常說肛門奇癢。可以采用兩法治此病。一是預防... 2022-06-26
生活莜面各種做法
莜面卷可以單獨食用也可以配蘸汁食用，這款莜面口口香時我們店裡點擊率最高的菜品之一，營養豐富的莜麥配上香濃的鹵汁，味道香濃可口。原料莜麥面500克，豆嘴丁30克，香菇、粉條丁各10克，火腿丁20克，炸豆腐丁15克。調料色拉油25克，濕澱粉15... 2022-11-29
生活十款羊毛大衣
LoroPiana是很多名流富貴精英階級的标配，沒有醒目的大logo，但是憑借獨特高級的觸感，就能夠認出是LP出品。️TheRow隻用平靜的顔色、偏中性的設計結構，流暢、簡單的線條，就打造了經典易穿的時髦單品。BrunelloCucinel... 2023-01-11
生活王國維認為的人生三個境界
點擊題目下方詩詞天地，邂逅一份古典與優雅編輯：詩詞天地（shicitiandi）王國維，字伯隅、靜安，号觀堂、永觀，谥忠悫。我國近代享有國際盛譽的著名學者，近現代在文學、美學、史學、哲學、古文字學、考古學等各方面成就卓著的學術巨子，國學大師... 2023-01-22
生活兒子被拐父母苦尋26年
母子相認現場。本文圖片澎湃新聞記者段彥超“堵在心裡幾十年的疙瘩，散了。”2020年1月1日，在鄭州市惠濟區，43歲的馬傑和78歲的母親張香菊緊緊相擁，淚流滿面。老人激動得一度癱倒在地上。這一天，距馬傑被拐已經34年。母子雙方曾多地奔波尋找對... 2023-01-11
生活海底撈和火鍋有什麼區别
海底撈和火鍋有什麼區别?性質不同;海底撈火鍋是一個全國連鎖的火鍋店之一，全國一般都有連鎖店的；而其他的火鍋不一定是全國連鎖的，我來為大家科普一下關于海底撈和火鍋有什麼區别?以下内容希望對你有幫助!海底撈和火鍋有什麼區别性質不同;海底撈火鍋是... 2022-08-23
生活電子保險元件是什麼樣的
電子元器件指在工廠生産加工時不改變分子成分的成品。如電阻器、電容器、電感器。因為它本身不産生電子，它對電壓、電流無控制和變換作用，所以又稱無源器件。因為它本身不産生電子，它對電壓、電流無控制和變換作用，所以又稱無源器件。保險元器件就是電子元... 2022-11-27
生活像小蜈蚣一樣的小蟲是什麼蟲
像小蜈蚣一樣的小蟲是什麼蟲?像小蜈蚣一樣的小蟲是蚰蜒蚰蜒俗稱“錢串子”“千足蟲”，有的地方稱“香油蟲”，古時稱“草鞋蟲”現今的蚰蜒節肢動物門，多足綱，唇足亞綱，蚰蜒目，蚰蜒科它的身體比蜈蚣的短，長約2-5厘米，今天小編就來聊一聊關于像小蜈蚣... 2022-05-31
生活十部熬夜也要看的甜寵韓劇
1.《奔向愛情》輕松又治愈的一部劇，讓人感觸很深，尤其是男女主之間坦誠，真摯，成熟的愛情，這部劇裡沒有欺騙和污點存在，人和人坦誠相處和對自己的真誠既是這部劇的亮點，也是我們都應該追逐的東西。看過的最愛的愛情類韓劇，溫暖、治愈且深刻。台詞字字... 2022-11-23
生活今日頭條id在哪
今日頭條id在哪?打開今日頭條，進入後找到左上角的頭像，點擊進入，下面我們就來聊聊關于今日頭條id在哪?接下來我們就一起去了解一下吧!今日頭條id在哪打開今日頭條，進入後找到左上角的頭像，點擊進入。進入後找到“系統設置”一項，點擊進入。進入... 2022-06-09
生活蒜苗五花肉如何做
蒜苗五花肉如何做?材料：帶皮豬五花肉500克，青蒜苗250克，蔥花、醬油、花生油、鹽、料酒、味精各适量，現在小編就來說說關于蒜苗五花肉如何做?下面内容希望能幫助到你，我們來一起看看吧!蒜苗五花肉如何做材料：帶皮豬五花肉500克，青蒜苗250... 2022-06-17
生活蜜汁金瓜如何做
蜜汁金瓜如何做?主料：金瓜1個600g、紅棗8顆、新鮮百合2顆、冰糖100g、清水适量，今天小編就來聊一聊關于蜜汁金瓜如何做?接下來我們就一起去研究一下吧!蜜汁金瓜如何做主料：金瓜1個600g、紅棗8顆、新鮮百合2顆、冰糖100g、清水适量... 2022-06-20
生活 90後的現狀感悟
大家好我是軒少，今天跟大家聊一聊一位90後的自述和現狀。曹峰，一個來自山東農村的90後，92年出生，今年已經30歲了。跟他聊完我感覺這是我第一次見到最無語的人生。互相指責對方8歲那年父母離婚，母親淨身出戶。十歲時候父親給她找了一個帶着兩個姐... 2022-11-24
生活冬天是适合做什麼運動
冬天是适合做什麼運動?慢走在一些比較平滑的地面進行一些慢走來鍛煉自己的身體，我來為大家科普一下關于冬天是适合做什麼運動?下面希望有你要的答案，我們一起來看看吧!冬天是适合做什麼運動慢走。在一些比較平滑的地面進行一些慢走來鍛煉自己的身體。跳繩... 2022-07-01
生活特别深愛一個人的句子
當生活拿走了你曾經擁有的一切：婚姻、孩子、富足安穩的生活；當明天可能面臨一無所有的境遇，面對未知和無常，你會怎麼做呢？是否會一蹶不振，還是能勇敢的攥起拳頭告訴自己：明天又是新的一天！“她那雙淡綠色的眼睛純淨得沒有一絲褐色，配上烏黑的睫毛和翹... 2022-10-28
生活考科舉多次名落孫山的人物
我們閱盡鉛華，隻為呈現不一樣的曆史。在中國曆史上有這樣一個人，他曾高中狀元，還當過兩朝宰相，可是死後卻并不榮光，不僅世人唾罵他，就連後代都以他為恥。這人到底是誰？又為何落得如此下場？且聽子淵一一道來。▲京劇中留夢炎扮相此人名叫留夢炎，字漢輔... 2023-02-28
生活紅樓夢最經典詩詞
滿紙荒唐言滿紙荒唐言，一把辛酸淚。都雲作者癡，誰解其中味？詩詞君：作者是以憤恨的心情寫出“滿紙荒唐言”的。由于作者在書中對許多人物抱有同情感，所以說自己是飽含着“一把辛酸淚”來寫這部著作的。他惟恐後人不知他的真實意圖，故雲“都雲作者癡，誰解... 2022-11-24
生活海信E8H有55寸的嗎
寫在前面在電視機領域，海信是屬于國内品牌第一梯隊的，這些年來無論是ULED還是量子點技術的投入，都是可圈可點的硬實力。ULED電視在本質上雖然是還是LED，但是通過對背光源的優化，解決了傳統LED電視背光分區不足的弱點，在色彩飽和度和對比度... 2022-11-14
生活未來三年财庫大開的屬相
今天是農曆正月初五，俗稱“破五”，還為“财神日”。今年是豬年，豬有“金烏”之名，是财富的象征。記者就此盤點一下，有多少位上市公司董事長以及高管是在農曆豬年出生的。統計顯示，豬年出生的董事長有251人，相關公司總市值接近4萬億。不過，同花順（... 2022-10-26
生活人機料法環5要素培訓心得
第一部分：人員1、定義人機料法環是對全面質量管理理論中的五個影響産品質量的主要因素的簡稱。“4M”：人員（Man）機器（Machine）物料（Material）方法（Method）“1E”：環境（Environment）人：指制造産品的人員... 2022-12-05
生活怎樣刷牙是正确的
刷牙是人們在日常生活中自我清潔牙齒、保持牙齒健康的重要的保健方式，也是維持口腔健康的必要手段，刷牙是目前所有預防牙周炎、齲齒等口腔疾病的方法中最簡單、最有效、最無害的措施！刷牙方法有哪幾種類型呢？應如何選擇?如果刷牙方式不當會對牙齒及牙周組... 2022-12-10
生活工字鋼和h型鋼的區别在什麼地方
1、工字型鋼不論是普通型還是輕型的，由于截面尺寸均相對較高、較窄，故對截面兩個主袖的慣性矩相差較大，因此，一般僅能直接用于在其腹闆平面内受彎的構件或将其組成格構式受力構件。對軸心受壓構件或在垂直于腹闆平面還有彎曲的構件均不宜采用，這就使其在... 2022-11-10
生活 k歌用聲卡和不用聲卡有什麼區别
k歌用聲卡和不用聲卡有什麼區别?1、原則：先定音量再定頻點再定增益再定類型最後定帶寬，接下來我們就來聊聊關于k歌用聲卡和不用聲卡有什麼區别?以下内容大家不妨參考一二希望能幫到您!k歌用聲卡和不用聲卡有什麼區别1、原則：先定音量再定頻點再定增... 2022-12-17
生活五行缺金怎麼補救
五行缺金怎麼補救?五行缺金佩戴飾品，五行缺金可從多個地方去補足，比如說佩戴飾品在五行每個屬行都有自己對應的顔色，而金也有，金代表的顔色就是白色和金色，而對應着兩種顔色，可選擇黃金飾品和白金或者銀飾，我來為大家科普一下關于五行缺金怎麼補救?下... 2022-06-04
生活複盤反思的重要性
如果你有一百萬，并且可以查看沃倫·巴菲特未來五年的确切投資清單，你會成為百萬富翁嗎？很可能不是。這就是為什麼。從技術上講，僅從沃倫巴菲特的回報來看，他并不是曆史上最好的投資者。事實上，如果巴菲特在60歲退休，甚至沒有多少人聽說過他。這是因為... 2022-10-22
生活養花根部長了小蟲怎麼辦
養花最怕蟲子了，春天氣溫合适，很多蟲卵都開始蠢蠢欲動，再過幾天都要孵化成小蟲爬出來啦，想想真是頭大，花花今年也準備了很多方法來對付花盆裡的小蟲，今天總結幾個教給大家，趕緊看看吧~花盆裡加點沙子，蟲子立馬變沒了養花為啥容易招蟲？除了土不幹淨之... 2022-11-05
生活緻虛極守靜笃什麼意思
緻虛極守靜笃什麼意思?緻虛極，守靜笃的意思是使心靈保持虛和靜的至極笃定狀态，不受影響，今天小編就來聊一聊關于緻虛極守靜笃什麼意思?接下來我們就一起去研究一下吧!緻虛極守靜笃什麼意思緻虛極，守靜笃的意思是使心靈保持虛和靜的至極笃定狀态，不受影... 2022-06-01

tft每日頭條

> 生活

> 動态顯存預分配總容量

動态顯存預分配總容量

相关生活资讯推荐

热门生活资讯推荐

网友关注