随着人工智能和機器學習應用的興起,研究者對于深度學習和訓練的計算量需求也日漸提升。為滿足這種密集的運算需求,通常需要相當大規模的服務器集群。在今年早些時候的 Hot Chips 大會上,我們已經見到過來自英特爾的 Nervana NNP-T Spring Crest 芯片。通過收購 Nervana,英特爾獲得了打造“大型訓練芯片”所需的 IP 。
(題圖 via AnandTech)
據悉,該芯片基于台積電 16nm 工藝制造,輔以 CoWoS 和四層 HBM2 内存,面積達到了 680 平方毫米。本周早些時候,Supermicro 已經在超算大會上展示了最新的 Nervana NNP-T 服務器。
這些硬件均基于 PCIe 擴展卡,可想象它們此前被設計為可容納 GPU 的傳統服務器。其采用了典型 2P 布局,可在 4U 機箱中插入 8 張擴展卡,且計算卡之間可以互相通信。
每顆芯片具有 3.58 Tbps 的總雙向帶寬,而片外連接則支持多達 1024 個節點的可伸縮性。從每張 PCIe 卡片的 8-pin 輔助供電來看,其峰值功率應該在标準的 225W 。
本周晚些時候,Supermicro 告知其已獲準展示該系列服務器的 8 路 OAM(OCP 加速器模塊)版本。其能夠通過底闆的 PCB 保持芯片間的通信,而不是傳統的 PCIe 卡對卡之類的橋接器。
這使得擴展卡之間能夠流通大量的空氣來散熱,并且兼容模塊化的 OCP 标準。作為英特爾首款支持 bfloat16 深度學習訓練的芯片,每個芯片最多支持 119 個 TOP 。
另有 60MB 片上存儲器和 24 個專用的“張量”處理器集群,後者具有雙 32×32 矩陣乘法陣列。該芯片共有 270 億個晶體管,内核頻率 1.1 GHz、輔以 32GB HBM2-2400 内存。
從技術上來講,PCIe 連接可以升級到 Gen 4.0 x16,但英特爾商務 CPU 支持這項特性。有人表示,為展開此類計算,一些客戶正在将頭結點從 2P 升級到 4P(Facebook 更是用上了 8P)。
Supermicro 聲明稱,其 NNP-T 系統已做好助推深度學習和訓練的部署準備。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!