tft每日頭條

 > 生活

 > nvidia gpu架構有哪些

nvidia gpu架構有哪些

生活 更新时间:2024-11-30 00:33:48

在前段時間的GPU技術大會(GTC 2020)上,NVIDIA正式發布了基于Ampere架構的新一代GPU——NVIDIA A100。這款産品作為通用型工作負載加速器,瞄準了如今最為熱門的AI領域。根據NVIDIA給出的數據,其性能相比于前代産品提升了高達20倍,可用于AI訓練和推理以及科學模拟、對話式AI、推薦系統、基因組學、高性能數據分析、地震建模和金融預測等場景。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)1

技術創新,NVIDIA A100 GPU性能突破的關鍵

NVIDIA A100擁有如此大幅度的提升,離不開Ampere架構的加持,該GPU基于7nm制造工藝,包含了超過540億個晶體管,擁有6912個CUDA核心,成為了目前全球最大的7納米處理器。不止如此,新品還搭載了40GB HBM2内存,具備1.6TB/s的内存帶寬,FP32性能達到19.5萬億次/秒,并引入了具有TF32的第三代Tensor Core核心、結構化稀疏 、多實例GPU( MIG)、第三代NVIDIA NVLink等衆多特性。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)2

NVIDIA在此前的Volta架構中首次引入了Tensor Core(張量單元)這一計算單元,使得當時V100 GPU的浮點運算性能得到了大幅提升,能夠更好地用于AI及深度學習應用。在最新的Ampere架構中,NVIDIA對Tensor Core進行了再次升級,使其變得更加靈活、快速且易于使用,甚至稱得上是性能上的一次飛躍。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)3

新架構引入了為AI開發的TF32,這是一種用于處理矩陣數學的新數值格式,而矩陣數學也被稱為張量運算,是AI和部分HPC應用主要使用的運算。簡單來說,TF32能加速AI訓練計算,結合結構稀疏性,就能使FP32精度下的AI性能顯著提高,可達到上代Volta架構的20倍左右。NVIDIA表示,甚至無需修改現有程序的代碼就能獲得性能提升。此外,目前的Tensor Core核心同時支持了FP64精度的浮點運算能力,相比于前代産品,可為HPC( 高性能計算)應用提供更多的算力,相比之前提高了多達2.5倍。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)4

至于上文提到的結構化稀疏,其實也是這次新架構的亮點所在,目前A100中的Tensor Core可為稀疏模型應用提供高達2倍的性能提升。該功能的加入讓GPU能夠更加高效地處理高維數據,相當于提高了AI學習性能。結構化稀疏是一種高維數據的有效分析方法,具備特征簡約、可解釋性強、計算方便等優勢,獲得了很多研發人員的關注,并在多個實際場景中得到了應用。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)5

Ampere架構除了細節和算力方面的改進,新品還充分考慮到了應用場景,提供了多實例GPU(MIG) ,通俗來講每個A100可以劃分成七個獨立的GPU,擁有了更高的靈活性。衆所周知,在數據中心等領域,CPU虛拟化是非常多見的技術,可将内核同時分配給不同用戶獨立使用,而MIG也有異曲同工之妙,如此一來不僅為不同規模的工作提供不同的計算力,以此實現最佳利用率和投資回報率的最大化,而且能在硬件級别上實現隔離,實現更高的安全性。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)6

至于Ampere架構的第三代NVIDIA NVLink,可使GPU之間的連接速率增加至原來的兩倍,雙向帶寬提升至50GB/s,傳輸速率達到了600GB/s,是PCIe 4.0帶寬的10倍,并且每顆GPU可以實現對外12路連接。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)7

A100助力,NVIDIA打造新一代AI系統

目前,基于Ampere GPU的NVIDIA DGX A100系統已經發布,它是全球首款算力達到5 petaFLOPS AI系統,内置8個由NVIDIA NVLink互聯的A100 GPU、兩塊64核AMD CPU和1TB系統内存,六個第二代NVSWITCH則提供了高達 4.8 TB/s雙向帶寬。網絡方面,系統内置Mellanox ConnectX-6 VPI HDR InfiniBand和以太網适配器,其雙向帶寬峰值為 450Gb/s。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)8

利用Mellanox HDR 200Gbps InfiniBand互連技術,NVIDIA将140台DGX A100系統結合在一起,成功構建了DGX SuperPOD AI超級計算機, AI計算能力高達700 Petaflops,用于公司内部對話式AI、基因組學和自動駕駛等領域的研究。值得一提的是,不隻是AI、科研領域的用途,如今DGX A100組成的超級計算機還被用來對抗COVID-19,對抗疫做出了貢獻。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)9

不光是大規模的AI計算系統,NVIDIA甚至将Ampere架構帶到了如今熱點之一的邊緣計算,NVIDIA EGX A100 AI 處理引擎搭載全新GPU的同時,集成有Mellanox ConnectX-6 Dx SmartNIC,不僅帶來優秀的拓展性,而且更有出色的安全性。Mellanox SmartNIC具有安全分流功能,能以高達 200 Gb/s 的線速進行解密,配合GPUDirect技術可将視頻幀直接傳輸到GPU顯存以進行AI處理。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)10

相輔相成,大量軟件為A100 GPU優化

當然,除了硬件層面的優勢,實際應用時也離不開軟件的支持。目前,NVIDIA對GPU加速應用領域的軟件開發平台CUDA進行了更新,推出了CUDA 11,為Ampere架構進行了優化,并更新了包括了50多個新版本CUDA-X庫。新版本可以完整支持基于Ampere架構的GPU硬件以及第三代Tensor Core的衆多特性,并加入了多實例GPU虛拟化和GPU分區等功能。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)11

與此同時,NVIDIA還發布了HPC SDK、多模态對話式AI服務框架NVIDIA Jarvis、深度推薦應用框架 NVIDIA Merlin等軟件。其中,HPC SDK包含編譯器和庫的全套綜合套件,是目前唯一可用于編程加速計算系統的全套集成SDK,開發者可通過它來編程整個HPC平台,從GPU基礎到CPU以及整體互聯,同樣該套件也對Ampere架構進行了相應優化。

寫在最後:正如NVIDIA所說的那樣,如今由于雲計算、AI等技術的出現,正在推動數據中心設計的結構性轉變,純CPU服務器被搭載GPU加速計算的平台所取代,未來随着這些新技術的不斷普及,越來越多的行業、企業将會産生類似需求。NVIDIA早在3年之前就已經意識到了這一趨勢,推出了Volta架構,并将專為深度學習的Tensor Core帶入到了GPU之中,大幅提升了AI訓練和推理性能,而到了目前Ampere架構的第三代Tensor Core,更是帶來了巨大的性能飛躍,可将AI訓練時間從數周縮短到幾小時,顯著加快了推理速度,無疑助力推動了整個AI行業的發展。

nvidia gpu架構有哪些(NVIDIA新一代A100GPU解析AI訓練速度提升20倍的秘密是什麼)12

另一方面,此次推出的Ampere架構、A100 GPU不隻是提供了大幅度的性能增長,而且NVIDIA更是考慮到了各個方面,甚至兼顧了數據中心的成本問題。根據NVIDIA給出的數據,一個由5台DGX A100系統組成的機架,可代替一個包括了AI訓練和推理基礎設施的數據中心,而且功耗僅是1/20,所占用的空間是1/25,成本隻有1/10。因此,我們完全有理由相信,未來NVIDIA GPU以及AI技術一定會進入到各行各業,滲透到大家日常生活的方方面面。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved