要說造芯這件事,不僅手機和汽車廠商熱衷于此,如今服務器廠商也紛紛投入自研大軍中來,無論是國内的阿裡雲,還是國外的亞馬遜,在收購一大批芯片設計廠商網羅了一衆芯片設計精銳後,也開始推出基于自己芯片的服務器,所用工藝也已經升級到了7nm和5nm。
此外,第三方服務器芯片廠商也順勢發力,打算為這些雲服務廠商提供更高的吸引力,而不是讓他們整天想着節省成本用自研方案替換掉自己的産品。好在大部分雲服務廠商自研的芯片主要還是集中在AI加速芯片和網絡芯片這一塊,CPU很大一部分仍是第三方的地盤。而在第三方的CPU設計中,我們可以看到多核已經成了當下的主流方案。
多核雲端更吃香?
首先我們來看最常見也最直接的一種提升性能方式,堆核心。這種操作我們已經在消費芯片或是各個電子産品的宣傳術語中聽得耳朵生繭了,且向來都是一種相當有效的性能提升方式。盡管則對芯片的面積限制較大,但不可否認的是,在對面積沒那麼看重的服務器市場上,走多核路線的芯片廠商越來越多。
Ampere Computing的Ampere Altra應該是國内出貨量最高的Arm服務器CPU系列了,這款最高128核的處理器已經在不少雲服務的實例上亮相。Ampere Computing與微軟Azure和Oracle Cloud達成了合作,在中國不僅擁有阿裡雲、騰訊雲、京東雲和UCloud這些公有雲客戶,百度、美團和字節跳動等公司也在使用其産品。
Ampere Altra Max封裝 / Ampere Computing
再來看看英偉達的Arm CPU Grace,雖然采用了Arm的Neoverse參考設計,但英偉達同樣選了144核的多核心設計,那麼為何多核在服務器上如此吃香呢?我們上面也提到了Ampere Altra在中國收獲了不小的市場,其實歸根結底就是其多核心數的功勞。
國内使用公有雲的用戶數遠超國外,對于雲服務廠商來說,這種多核處理器意味着可以将單服務器切分為更多的vCPU,也就意味着更多的可用實例。這還沒完,以Ampere Altra為例,每個核心上隻運行單個線程,這樣即便多用戶同時使用下,依然能夠維持穩定的性能。
Ampere 處理器路線圖 / Ampere Computing
值得一提的是,Ampere近期發布了自研5nm處理器,Ampere One,一個基于自研Arm核心的服務器處理器。這對于其他廠商來說或許無法實現,但Ampere作為Arm架構的授權商,是可以像高通、華為和蘋果等廠商一樣,開發定制自己的Arm核心的。
也或許是因為這次終于沒有繼續沿用Arm Neoverse N1或N2這樣的參考設計,Ampere才将這一産品命名為Ampere One。Ampere并沒有公布這一産品的核心數,但從現有産品最小核心數也有32核的設計,以及Ampere One實物圖與Ampere Altra Max近似的封裝來推斷,這一新品追求的必然是更高性能的雲原生應用,而不是面向隻需較低核心數就能滿足需求的邊緣計算市場。
服務器AI芯片靠數量和能耗制勝
與處理器芯片處理通用計算的多核策略不同,AI芯片的多核主要還是提高AI計算效率,而且單核能效比和單位面積效率往往高于傳統的處理器架構,導緻核心數更多。以打造千核RISC-V AI芯片的Esperanto為例,其ET-SoC-1芯片基于台積電7nm打造,集成了1092個RISC-V核心。
ET-SoC-1芯片 / Esperanto
但就是這樣一個千核芯片,卻可以做到20W以内的功耗和570mm2的die size。正因如此,即便單個ET-SoC-1的算力不及英偉達A100這類GPU,也可以憑借多塊芯片組成的AI加速器闆卡來實現同等的性能,甚至低上一大截的功耗。
對于依賴陣列乘法器這類專用硬件和少量CPU核心的芯片,一旦問題不能完全由專用硬件解決,就會把任務交給有限的通用CPU核心。而Esperanto的ET-SoC-1方案中,上千顆通用RISC-V核心帶來的完全并行可以顯著加快執行速度。何況哪怕相較于5nm而言,7nm的能效比也還是非常優異的,所以更适合這類超多核心數的設計,也更符合數字中心的低碳設計理念。
結語
有的讀者可能會有疑惑,既然多核能給服務器芯片帶來顯著的提升,為何英特爾或AMD這些x86服務器芯片廠商不設計百核以上的架構呢?這就與CISC與RISC架構的差異有關了,哪怕在同等工藝和同等核心數下,x86芯片的die size也絕對要大于Arm和RISC-V芯片,而随着die size的增加,芯片的良率也會一并減少。再者就是多核下的并行問題了,一些通用計算任務在多核下的并行執行效率并不高,而且會大幅提升複雜性。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!