2080ti顯卡超頻測試-tft每日頭條

2080ti顯卡超頻測試

科技更新时间:2026-07-27 17:38:28

機器之心原創

作者：思

2080Ti 竟然可以當 V100 來用，這個功能有點兒厲害。

自深度學習大潮興起，模型就朝着越來越大、越來越「深」的方向發展。

2012 年，擁有 5 個卷積層的 AlexNet 第一次在視覺任務上展現出強大的能力。在此之後，基礎模型就開始「深」化起來：2014 年的 VGG-Net 達到了 19 層；2015 年的 ResNet、2017 年的 DenseNet 更是将深度提升到了上百層。

模型大小的提升極大地提高了性能。因此，各大視覺任務都将 ResNet、DenseNet 等當做基本的 BackBone。但與此同時，模型的增大也意味着對顯存的需求随之變高。

為什麼 GPU 顯存如此重要？

九年前，Hinton 等人率先用兩張 3GB 顯存的 GTX 580 GPU 高效訓練 AlexNet。在此之後，顯存需求與模型大小就一直同步增長。打比賽想要取到好成績、做實驗想要超越 State of the art 效果、做工程想要拟合龐大的業務數據等等，這些都離不開顯存的加持。

模型加一層，顯存漲一分

在深度學習模型中，占用顯存的總是那些特别大的張量，比如各層的權重矩陣、計算出來的張量（激活值）、反向傳播需要的張量等。在視覺任務中，占據絕大多數的是中間計算出來的張量。随着模型變得更深更大，每一層的激活值張量都需要保留在顯存中。

以 ResNet50 為例，在模型的訓練中，前向傳播中 50 層的計算結果都需要保存在顯存中，以便讓反向傳播利用這些張量計算梯度。如果使用 ResNet108，需要的顯存就會比 ResNet50 多出一倍多。顯存的增加，帶來的當然是模型效果的提升。另一方面，如果顯存不夠，許多工作也必将無法實現。

顯存不夠，寫論文、打比賽屢遭掣肘

在實驗室跑模型、寫論文的過程中，顯存不夠用也是常有的事。一般實驗室的顯卡都是大家共用的，可能分配到每個人的手上已經所剩無幾。甚至于，随着頂尖模型越來越大，所有人都沒有足夠的算力、顯存去複現終極實驗，更不用說超越其 SOTA 結果。

遇到這種情況，學生無非隻有兩種選擇：向導師申請新的 GPU 資源，或者縮減模型做一個 Mini 版的實驗。前者并不總是能夠成功，後者則可能會有種種不完美。如果能用有限的顯存跑頂尖的大模型，做實驗、寫論文都會變得更加簡單。

此外，無論是在學校還是在公司打比賽，算力不夠、顯存不足都是常有的事。頂尖競争者的模型結構可能相差無幾，區别就在于誰的模型更大、更有能力去處理複雜的樣本。更直觀地說，排行榜領先者的模型也許就隻差十幾層，但也正是因為顯存受限少了那十幾層，有些模型才與冠軍失之交臂。

顯存：約束算法工程師的瓶頸

再舉一個常見的例子，企業中的算法工程師擁有足夠的算力，顯存沒那麼重要。然而，隻使用并行策略分擔顯存，還是可能會出現顯存足夠、但每張 GPU 的計算負載又不足的情況。

2080ti顯卡超頻測試（顯存不夠框架來湊）1

4 張 V100，顯存占滿，而 GPU 利用率很低。

即使是 V100 這樣強大的算力，訓練大模型時也很容易占滿 16GB 顯存。然而由于批量不夠大，上圖每張 V100 GPU 的利用率隻有 20% 到 30%。隻有繼續增大每次叠代的數據吞吐量，才能增加 GPU 的利用率。

MegEngine：顯存需要優化

其實對于深度學習從業者來說，日常應用中出現的情況遠不止上面三種。做深度學習，不論是研究還是工程，時不時就會遇到顯存問題。但這個問題優化起來又很複雜，需要利用大量的工程實現來緩解。顯然，這樣的優化應該由深度學習框架來完成。不過，在實際應用中不難發現，TensorFlow、PyTorch 似乎都沒有提供完善的官方解決方案。

但如果把目光投向新生勢力，情況可能就不一樣了。在曠視開源深度學習框架 MegEngine 最近發布的 1.4 版本中，該框架首次引入了動态圖顯存優化技術，大大降低了顯存占用問題。

具體來說，通過複現并優化 ICLR 2021 Spotlight 論文《Dynamic Tensor Rematerialization》（以下簡稱 DTR），MegEngine 實現了「用計算換取更多顯存」。有了這項技術的加持，模型的顯存占用大大降低，同樣的硬件可以訓練更大的模型、承載更大的 BatchSize。如此一來，學生的小顯卡也能開始訓練大模型，而工程師們的服務器也經得起更充分的應用。

2080ti顯卡超頻測試（顯存不夠框架來湊）2

原本需要 16GB 顯存的模型，優化後使用的顯存峰值就降到了 4GB。

MegEngine 這種顯存優化技術，讓 1060 這樣的入門級顯卡也能訓練原本 2080Ti 才能加載得上的模型；而 11GB 顯存的 2080Ti，更能挑戰原本 32GB V100 才能訓練的模型。要知道，V100 的價格可是 2080Ti 的 9 倍還多。

兩行代碼，顯存「翻倍」

如要需要自己去優化顯存，可能 99% 的算法工程師都會放棄。最好的辦法是告訴深度學習框架，這次訓練就分配多少顯存，剩下的就交給框架自己去優化。MegEngine 的動态圖顯存優化就是基于這一邏輯。

通過兩行代碼，框架可以全自動地完成顯存優化，将所有優化邏輯與複雜的工程實現都隐藏在 MegEngine 内部。

2080ti顯卡超頻測試（顯存不夠框架來湊）3

如上圖所示，在動态計算圖中導入 DTR 顯存優化模塊，并配置顯存釋放阈值為 5GB。訓練時，因為顯存已經「翻倍」了，Batch Size 翻四倍也能裝到 GPU 中。

顯存擴增帶來的收益

很多時候，提高顯存的利用率，最顯著的作用就是能訓練更大的模型。從一定程度上來說，參數量越大就意味着效果越好；而批大小越大，梯度更新方向就越準确，模型性能也就越優異。MegEngine 開發團隊做了很多實驗，以确保提高顯存利用率的同時訓練是優質的。

最簡單的驗證方法就是不斷增加批大小，看看顯卡到底能堅持到什麼程度。下面兩張表分别展示了在 PyTorch 及 MegEngine 上加載或不加載動态圖顯存優化（DTR）技術的效果。

2080ti顯卡超頻測試（顯存不夠框架來湊）4

如果不使用動态圖顯存優化技術，PyTorch 上的模型一次訓練叠代最多隻能處理 64 個樣本，MegEngine 能處理 100 個樣本。隻要加上 DTR，PyTorch 模型一次叠代就能處理 140 個樣本，MegEngine 能嘗試處理 300 個樣本。

如果換算成模型大小，加上動态圖顯存優化技術的 MegEngine，在相同的 GPU 及批大小情況下，能高效訓練增大近乎 5 倍的模型。

MegEngine 動态圖顯存優化技術

深度學習模型的顯存占用一般分為權重矩陣、前向傳播的中間張量、反向傳播的梯度矩陣（Adam 優化器）三部分。

權重矩陣和梯度矩陣占的内存很難優化，各個模型基本上都有一個定值。前向傳播的中間計算結果則不然：随着 Batch Size 的增加以及模型層和數量的增加，顯存必然跟着增加。如果模型比較大，中間計算結果将占據最主要的顯存。

2080ti顯卡超頻測試（顯存不夠框架來湊）5

如上圖所示，在前向傳播中（第一行從左到右），藍色圓圈表示模型的中間計算結果開始占用顯存。一直到前向傳播完成，第一行完全變為藍色圓圈，前面計算所占用的顯存都不能釋放。

等到反向傳播開始（第二行從右到左），随着梯度的計算與完成應用，前向傳播保留在顯存中的張量才可以釋放。

很明顯，如果要降低顯存占用，就要拿前向傳播保存的中間計算結果開刀，這也正是 MegEngine 動态圖顯存優化的主要方向。

用計算換顯存

對于動态計算圖，最直接的方法就是用計算或内存換顯存。因此，MegEngine 首先要決定到底使用哪種技術。

MegEngine 團隊通過實驗發現，用計算耗時遠比交換耗時少。例如從顯存中節省 612.5MB 空間，用帶寬換顯存要比用計算換顯存慢了幾十上百倍。

2080ti顯卡超頻測試（顯存不夠框架來湊）6

因此很明确，動态計算圖中也應該使用梯度檢查點技術，用計算換顯存。

如下為梯度檢查點技術原理示意，前向傳播中第三個點為檢查點，它會一直保存在顯存中。第四個點在完成計算後即可釋放顯存，在反向傳播中如果需要第四個點的值，可以從第三個點重新計算出第四個點的值。

2080ti顯卡超頻測試（顯存不夠框架來湊）7

雖然大緻原理不難理解，但具體怎麼做還是比較複雜的，MegEngine 團隊借鑒了論文《Dynamic Tensor Rematerialization》，将其優化并實現到 MegEngine 中。

DTR，最前沿的顯存優化技術

DTR 是一種完全動态的啟發式策略，核心思想是當顯存超過某個阈值時，動态地釋放一些合适的張量，直到顯存低于阈值。一般而言，釋放張量的标準有三個：重新計算出該張量的開銷越小越好；占用的顯存越大越好；在顯存中停留的時間越長越好。

2080ti顯卡超頻測試（顯存不夠框架來湊）8

除去從檢查點恢複前向傳播結果張量帶來的主要開銷，DTR 的額外開銷在于尋找應該被釋放的最優張量，即計算上圖張量 t 的 f(t)值。為了降低這一部分的計算量，MegEngine 還采用了兩種運行時優化：

不考慮小的張量，它們不加入候選集
每次在需要釋放張量的時候，随機采樣并遍曆少部分張量，以節省計算開銷

最難的是工程實現

雖然 DTR 看上去原理也不複雜，但真正的難題在于提高易用性，即将所有細節都隐藏到框架的底層，隻為開發者提供最簡單的接口。

在此就用一個最簡單的計算例子，跟着框架演算一遍，看看 MegEngine 是如何利用動态圖的計算曆史恢複與釋放張量的。

2080ti顯卡超頻測試（顯存不夠框架來湊）9

現在假設輸入有 a 和 b 兩個張量，并希望計算 a*b 與 a b，但是顯存最大隻能保存三個張量。在黃框計算 c=a b 時，顯存還能保留張量 c，然而在下一步綠框計算 d=a*b 時隻能先釋放 c 才能保存 d。

不巧的是，下一步灰框需要獲取黃框的計算結果，然而為了節省顯存，c 已經被釋放了。所以，MegEngine 現在需要做的是重新運行灰框的計算圖，計算 c=a b，并加載到顯存中。顯然，這樣做必然需要釋放 d 的顯存。

這樣一來，鑒于顯存的限制，MegEngine 就會自動選擇合适的張量釋放，并在需要時重新計算。如果需要重新計算某個張量的結果，例如上圖的 d，就需要具體的曆史計算信息（在這裡就是 a b 這樣的計算路徑），與此同時還需要知道 a 和 b 這兩個輸入張量。

所有這樣的曆史計算信息都由 MegEngine 自動獲取與保存，MegEngine 的工程師已經在底層用 C 處理完畢，用戶完全不需要考慮。

struct ComputePath { std::shared_ptr<OpDef> op; SmallVector<TensorInfo*> inputs; SmallVector<TensorInfo*> outputs; double compute_time = 0; } *producer; SmallVector<ComputePath*> users; size_t ref_cnt = 0;

以上為 MegEngine 底層用于追蹤計算路徑信息的結構體。其中 op 表示産生該張量的算子；inputs 和 outputs 分别表示這個算子需要的輸入與輸出張量；compute_time 表示該算子實際的運行時間。

實際上，在使用 MegEngine 的過程中，全都是用 Python 接口創建張量，隻不過框架會對應追蹤每個張量的具體信息。每當需要訪問張量，不用考慮張量是否在顯存中時，沒有也能立刻恢複出來。所有這些複雜的工程化的操作與運算邏輯都隐藏在了 MegEngine C 底層。

2080ti顯卡超頻測試（顯存不夠框架來湊）10

Python 代碼會翻譯成 C 底層實現，C 代碼會通過指針管理顯卡内存中真正的張量（右圖綠色部分）。

幸好這樣的複雜操作不需要算法工程師完成，都交給 MegEngine 好了。

MegEngine 能做的事情遠不止于此，隻不過大多是像動态圖顯存優化這種技術一樣，潤物細無聲地把用戶的實際問題解決于無形。2020 年 3 月開源的 MegEngine 在以肉眼可見的速度快速成長，從靜态計算圖到動态計算圖，再到持續提升的訓練能力、移動端推理性能優化、動态顯存優化…… 這也許就是開源的魅力。隻有不斷優化和創新，才能吸引和滿足「挑剔」的開發者。MegEngine 下一個推出的功能會是什麼？讓我們拭目以待。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技電腦屏幕倒置怎麼辦
1、首先我們在電腦桌面上鼠标右鍵，然後選擇顯示設置，并點擊進入。2、在顯示設置頁面，我沒找到分辨率下... 2023-07-04
科技自動鎖屏在哪裡設置
自動鎖屏設置方法如下：1、點擊開始菜單，在彈出的菜單裡點擊“控制面闆”。2、點擊後，打開控制面闆，如... 2023-07-04
科技電腦主闆壞了怎麼辦
1、我們先拆開機箱，将電腦主闆上的螺絲取下并将主闆取出來。這樣方便我們維修，如果确定是主闆的問題再拆... 2023-07-04
科技車輛過戶牌照怎麼處理
1、車輛過戶牌照要注銷，在辦理轉移時按規定必須收回原号牌、行駛證、确定新的機動車号百牌号碼并重新核發号牌。2、車牌是不能過戶的，車輛可以辦理過戶，隻要雙方攜帶賣方身份證原件及複印件、買方身份證原件及複印件（公戶需要出示組織機構代碼證）等證件即可，但是車牌号不能辦理過戶業務。3、車輛過戶時要到當地車管所辦理過戶。需要帶二手車交易合同，車輛不得有違章，不得超過檢車期。到當地二手車市場開具二手車交易過戶 2023-07-04
科技電腦顯卡散熱不好怎麼解決
1、顯卡是發熱量最大的電腦配件，就獨立顯卡而言，一般溫度在40至60攝氏度之間屬于正常範圍，不過有些... 2023-07-04
科技淘寶怎麼提升店鋪權重
1、定期上新産品。想要提升淘寶店鋪的權重，我們要保持産品定期更新，上傳新品也是具有技巧的，并非一次性... 2023-07-04
科技抖音裡面的榜一是什麼意思
演示機型：華為P40系統版本：EMUI11.0.0APP版本：抖音v14.8.0以華為P40、EMUI11、抖音v14.8.0為例。抖音榜一指的是，直播時打賞越多的用戶排名越靠前，榜一就是排第一的用戶。抖音，是一款可以拍攝短視頻的音樂創意短視頻社交軟件，該軟件于2016年9月上線，是一個專注年輕人音樂短視頻社區平台。用戶可以通過這款軟件選擇歌曲，拍攝音樂短視頻，形成自己的作品。抖音（TikTok） 2023-07-04
科技 zscaler是什麼軟件
演示機型：華為MateBookX系統版本：win10Zscaler是一家全球雲安全公司，提供互聯網安全、web安全、下一代防火牆、沙盒，SSL檢驗、防病毒、漏洞管理及顆粒控制，業務在雲計算、移動和互聯網領域均有涉及。Zscaler雲管理軟件中的跨站攻擊漏洞，一旦被攻擊者利用，在用戶訪問管理界面的時候，其浏覽器就會被注入惡意的HTML和javascript。之後，隻要攻擊者需要登錄到這個網站，就可以 2023-07-04
科技電腦屏幕旋轉了90度怎麼調回來
1、右擊桌面空白的地方，找到圖形選項->旋轉，然後選擇一個要旋轉的角度；2、若是台式機的話，調整回來... 2023-07-04
科技華為無法自動鎖屏怎麼辦
1、在手機的設置界面,找到高級設置,點擊進入。2、在高級設置界面,找到安全一項,點擊進入到安全設置界... 2023-07-04
科技電腦網絡連接出現感歎号怎麼辦
1、鼠标單擊左下角開始菜單，選擇設置，點擊網絡和Internet。2、在狀态下點擊更改适配器選項，鼠... 2023-07-04
科技蘋果手機防盜怎麼設置
1、第一步，打開蘋果手機的設置功能，進入設置界面以後，往下劃可以看到一個iCloud的選項，點擊進入。2、第二步、進入iCloud界面以後，第一行可以看到您手機的AppleID右邊有一個大于号，點擊它就會提示您登錄。3、第三步、登陸完您的AppleID以後，系統會提示河北手機上的通訊錄以及提醒事項等... 2023-07-04
科技華為歐版和國行的區别
演示機型：華為P40系統版本：EMUI11.0.01、銷售地區不同：歐版的華為是廠家生産出來時銷售到歐洲地區的手機。國行的華為是廠家生産出來時在中國大陸銷售的手機。2、售後服務不同：歐版的華為隻能在歐洲地區進行售後服務。國行的華為在中國大陸進行售後服務。3、系統語言不同：歐版的華為系統默認語言為英語。國行的華為系統默認語言為中文簡體。華為：華為技術有限公司，成立于1987年，總部位于廣東省深圳市龍 2023-07-04
科技建設銀行違章扣分怎樣處理
1、進入建設銀行手機端，首先登陸。點擊界面下方的【悅生活】。點擊界面中間部分的【娛樂出行】。手機建設銀行如何處理交通罰單2、一般如果你開啟了定位，該app會自動定位到你的城市，并把你所在城市的繳費項目羅列出來。如果沒有開啟，需要手工選擇城市。點擊所選地區繳費項目”中的【交通罰單】。3、選擇繳費地區，選擇繳費單位，錄入【處罰決定書号碼】，點擊下一步。4、如果錄入無誤就能顯示該罰單的信息了，核對戶名和 2023-07-04
科技 p500顯卡和mx150的區别
1、相對于CPU規格的大幅提升，顯卡就有些令人失望，MX150并沒有使用大家翹首以盼的圖靈架構，而是... 2023-07-04
科技文檔怎麼編輯文字排版
演示機型：華為MateBookX系統版本：win10APP版本：word20131、打開Word文檔，可以點擊進入頁面布局，然後添加一個背景顔色。2、添加背景後，可以直接輸入文字，也可以插入一些圖片和形狀。3、進入插入頁面，點擊插入圖片。點擊插入圖片後，可以設置圖片的格式，也可以将圖片設置背景圖片，點擊選擇置于文字底部。4、把圖片置于文字底部後，就可以在圖片上面編輯文字了。 2023-07-04
科技如何打開系統還原
1、打開Windows7電腦系統，在開始菜單中點擊“控制面闆”，點擊打開。2、在窗口中選擇“系統回答... 2023-07-04
科技新車必須買哪些保險
1、交強險。全稱為機動車交通事故責任強制保險”，保障被保險車發生交通事故造成受害人受傷、身亡以及财産損失的強制責任險。該保險涉及機動車上牌和驗車的問題，為必須購買。2、第三責任險。即保障被保險車輛因意外事故造成第三者受傷、身亡以及财産損失的責任險。若為對方責任則全部賠償，若自身責任則賠償20%。3、... 2023-07-04
科技微信拍一拍的備注怎麼改
1、第一首先先進入手機桌面，點擊微信；2、進入微信後選擇一位好友；3、進入聊天頁面，點擊頭像；4、接... 2023-07-04
科技 virtualbox是什麼軟件
演示機型：華為MateBookX系統版本：win10VirtualBox是一款開源虛拟機軟件。VirtualBox是由德國Innotek公司開發，由SunMicrosystems公司出品的軟件，使用Qt編寫，在Sun被Oracle收購後正式更名成OracleVMVirtualBox。Innotek以GNUGeneralPublicLicense（GPL）釋出VirtualBox，并提供二進制版本及 2023-07-04
科技紅米k30屏幕是什麼材質
1、屏幕采用了LCD材質。2、RedmiK30配備了首發骁龍765G處理器芯片，可支持NA和NSA雙... 2023-07-04
科技筆記本電腦結束進程快捷鍵是什麼
1、電腦結束進程的快捷鍵是ALT+F4。2、電腦的一些快捷鍵：Ctrl+1，功能：切換到從左邊數起第... 2023-07-04
科技 a2229ipad什麼型号
以iPadPro、ios14為例。iPadPro。iPadPro（第四代）是由蘋果公司設計、開發及銷售的平闆電腦，于2020年3月18日正式發布。該款iPadPro與2018款屏幕尺寸一緻，外觀變化不大，搭載了A12Z仿生芯片，A12Z擁有8核CPU，8核GPU以及神經引擎，号稱“比大多數WindowsPC筆記本電腦更強大”。其最大亮點是新款配件-妙控鍵盤，帶USB-C接口 2023-07-04
科技如何防止手機電池爆炸
1、采用原裝電池。手機電池一旦爆炸，不僅會造成經濟方面的損失，并且還會危害到人們的身心。為了防止類似的事件發生，大家首先需要選用質量過硬的原裝電池，避免使用山寨、劣質電池。這是由于原裝電池外表一般會包上一層安全膜，當電池壓力達到一定峰值時，就會爆開安全膜釋放壓力，保護電池不爆炸。但山寨電池、劣質電池... 2023-07-04
科技怎樣下載北鬥導航
1、首先，我們打開我們的手機，然後我們點擊應用市場。2、進入應用市場之後，我們點擊搜索框。3、然後我們在搜索框中輸入北鬥導航，彈出的界面，我們點擊北鬥導航。4、之後彈出的界面，我們點擊安裝。5、然後我們可以看到就開始下載北鬥導航了。6、下載完成後會自動進行安裝，顯示為安裝中。7、安裝完成後，我們點擊打開。8、之後我們就可以看到我們進入北鬥導航了。 2023-07-04
科技怎麼教孩子騎自行車
第一、剛開始的時候，可以把車後輪的輔助小輪裝上，讓孩子自己騎着玩，隻要有這個小輪，孩子不用大人扶，也能騎着玩，這樣，孩子就有自信心了。第二、當孩子騎有小輪的自行車，騎得很好的時候，就将小輪卸掉，讓孩子自己坐在車上，用雙腳挨地，自由地玩，孩子就能自己找一找平衡，當要歪倒的時候，可以用腳踩地。第三、當孩子有了一些平衡感的時候，讓孩子騎在車上，家長從後面扶着，跟着孩子的車跑，這時，孩子會搖晃，家長可以教 2023-07-04
科技石墨烯電池缺點
1、傳統導電碳/石墨很便宜，都是論噸賣的，而石墨烯太貴。一克上千的價格，這不是一般企業能夠承受得了的... 2023-07-04
科技電腦怎麼連接蘋果手機熱點
1、打開設置，找到個人熱點，點擊進入。2、把個人熱點開啟，下面可以改熱點密碼。3、如果沒開手機移動流... 2023-07-04
科技移動網上營業廳手機怎麼登錄
1、點擊手機桌面中的中國移動app。2、點擊屏幕下方的我的。3、點擊屏幕上的登錄。4、點擊本機登錄或者是短信驗證登錄。5、這樣操作完成，就在手機上登錄了移動網上營業廳了。 2023-07-04
科技微信如何拍一拍好友
1、要想拍其他好友，首先自己的微信版本看一下是不是最新的。2、隻要版本最新的話，打開想要拍的好友的界... 2023-07-04

tft每日頭條

> 科技

> 2080ti顯卡超頻測試

2080ti顯卡超頻測試

相关科技资讯推荐

热门科技资讯推荐

网友关注