阿裡雲 第三代雲計算?CSDN特約撰稿人 | 文钊6月13日,阿裡雲發布新一代雲數據中心處理器CIPU(Cloud infrastructure Processing Units ),這是為新型雲數據中心設計的專用處理器,未來将替代CPU成為雲計算的管控和加速中心,它被業内人士認為是一款定義下一代雲計算标準的開創性産品,今天小編就來聊一聊關于阿裡雲 第三代雲計算?接下來我們就一起去研究一下吧!
CSDN特約撰稿人 | 文钊
6月13日,阿裡雲發布新一代雲數據中心處理器CIPU(Cloud infrastructure Processing Units ),這是為新型雲數據中心設計的專用處理器,未來将替代CPU成為雲計算的管控和加速中心,它被業内人士認為是一款定義下一代雲計算标準的開創性産品。
近20年随着互聯網,大數據、雲計算、物聯網的發展,數據中心計算架構經曆了快速的演變過程,新興的互聯網、雲計算公司逐漸成長為行業巨頭,代替了傳統的OEM廠商,成為數據中心領域話語權的主導者,引領着行業的産品和技術不斷進步。其中,以AWS、Azure、阿裡雲這3A為代表的雲計算公司又是其中最重要的推手,幾乎每一項技術變革背後都有這幾家公司的影子。在筆者看來,數據中心的計算架構至少經曆了三個大的階段。
階段一:數據中心傳統模式到雲計算
2006年AWS發布了EC2和S3兩款産品,是目前業界公認的雲計算大幕拉開的标志性事件。随後的2009年,阿裡雲、Azure也在看到了雲計算的潛力後相繼入局。在那個年代,Intel CPU通過VT-x技術實現了CPU和内存的硬件虛拟化,通過VT-d以及PCIe SR-IOV等技術實現了IO接口的虛拟化。彼時,AWS的底層虛拟化技術還是用的開源的Xen,一台主流的2路服務器還隻有16個HT core。而這一發展就是近十年的時間。
随着4G網絡的發展,互聯網公司遍地開花,雲計算公司的業務扶搖直上。而随着服務器上的客戶越來越多,跑的workload越來越豐富,也讓雲計算公司從其客戶的使用中不斷吸取經驗,打磨自己的産品,最終的目标都是讓計算的産品朝着物理機的性能、安全方向演進,為用戶上雲創造良好環境。
在計算能力上,AWS、Azure、阿裡雲等公司結合雲上用戶的負載和需求,從2015年開始陸續針對數據中心的CPU做一系列定制,如為了滿足高性能客戶更大規格實例能力的要求,AWS C4定制了10核心的“haswell-ep”Xeon E5-2666 v3處理器,對比标準的高主頻CPU型号高了25%的能力。
在網絡能力上,2013年AWS的C3實例通過虛拟網絡直通VM(SR-IOV) 支持Enhanced Network使得帶寬提升20%,時延降低50%。
由于此時的虛拟化還跑在主機上,因此需要一部分的CPU和内存資源去運行傳統的“Dom0”,因此我們會發現AWS的C4、R4等haswell、broadwell實例都存在4c/12G、8c/24G不等的資源無法被售賣,這個就是我們所謂的數據中心稅,在那個CPU核心數還較少的年代,動辄10%-30%的資源無法被售賣,是一個巨大的成本浪費。
階段二:解決數據中心稅的問題,性能軍備競賽
随着客戶對性能要求的提升以及網絡(10G->25G)、存儲能力的發展,網絡vswitch和存儲越發成為雲計算場景CPU資源消耗的兩類後台工作任務。在傳統模式下,網絡和存儲的性能非常依賴于主機側CPU的性能,而在2014-2020年期間,實際上摩爾定律的發展受到了非常大的挑戰,CPU核心數增長緩慢,IPC提升也有限,想要推動網絡和存儲性能的提升僅僅依靠主機側CPU更多的核數、更高的頻率,代價過于巨大——可售賣CPU資源減少,由于頻率帶來的發熱和功耗增長帶來的額外Opex(運營支出)成本都難以讓人接受。在此過程中Intel甚至想到了一些從CPU層面的解決方案,如允許部分CPU跑在更高的P1頻率和Turbo頻率的技術,但終究不是令人滿意的解決方案。
于是各家都在尋求一些更好的解決方案:
2017年10月的雲栖大會上,阿裡雲發布了“神龍”架構,基于CPU FPGA方案,從支持裸金屬的虛拟化,做到性能超越物理機的裸金屬服務器;再到第二代神龍做到了“一套軟硬件,三種服務(裸金屬服務器 虛拟機服務 容器)”,解決了虛拟機和裸金屬分池的問題,性能層面也實現了“虛拟機性能接近裸金屬”;之後的第三代、第四代做到了24M、50M的PPS能力,在解決了數據中心稅的同時,實現了性能的大幅飛躍。
一個月後,AWS推出了Nitro系統。基于AWS收購的Annapurna公司研發的Arm架構的AL72400芯片,做成将網絡和存儲offload的Nitro VPC卡和Nitro EBS卡,以及本地存儲的InstanceStorage卡。正是Nitro架構改變了服務器硬件的主從關系,當所有的Dom0全部Offload到網卡之後,主處理邏輯全部在智能網卡,主從的關系也需要發生逆轉。因此,智能網卡變成了主管理節點,而服務器上的其他部件變成了從服務節點。
AWS的C5實例就提到“新的 EC2 虛拟化引擎将提供更加平穩的性能和更強的計算能力和内存能力,因為它移除了主機的系統軟件組件(host system software components)。如此,我們的 C5 實例可以提供一些超大的版本(如 c5.x18xlarge),這基本上整台主機的資源用戶都可以用上了。之前的 C3 和 C4 實例已經做了一些軟件組件的移除,把 VPC 和 EBS 功能轉移到了 AWS 自己設計的硬件上。現在,這個硬件可以讓虛拟化引擎以最小化的體積運行,因為它不需要去處理網絡和存儲的數據處理任務。”至此,AWS的數據中心稅問題解決了,但性能隻有3M PPS,之後推出的基于16c Arm A72架構的100G Nitro網卡進一步支持EFA實現更低時延、更高可靠性以及3倍PPS性能提升,性能的問題也基本上得到了解決。
微軟的Azure也看到類似的問題,考慮到可編程性、性能和效率的權衡,他們使用了基于FPGA的自定義Azure SmartNIC将主機網絡卸載到硬件的解決方案。但也僅僅是網絡的卸載和加速,存儲和管控面看上去還是跑在主機側,最新的基于Intel Icelake的實例EDv5系列E104id v5 104c/672G内存,數字上來看還有至少24c的額外資源占用。
随着阿裡雲神龍架構、AWS Nitro的引領,京東、騰訊、字節等公司也采用了類似的架構構建自己的公共雲計算服務,數據中心計算架構的中心開始向智能網卡傾斜。
有趣的是,在筆者所在的服務器架構領域也深刻地受到此趨勢的影響——由于網卡的能力越來越強(以及各種PCIe IO設備的廣泛應用),傳統的服務器後出線的架構難以高效地對位于服務器後端的網卡設備散熱,阿裡巴巴的自研服務器首先推動了業界大量從後出線到前出線的架構演變,實現了更高的散熱效率,鋪平了演進到100G以及未來更高帶寬網絡的路。國内其他互聯網公司的服務器架構也陸續轉向了前出線架構。
階段三:用戶需求的多樣化,
驅動了CIPU為中心的新一代計算體系誕生
随着技術的演進,用戶需求日趨多樣化。AMD的數據中心芯片、Arm架構的數據中心芯片等都給用戶帶來了更多的選擇;異構加速芯片也百花齊放,FPGA産品,推理芯片,訓練芯片,視頻編解碼芯片等等;存儲上,local SSD用于cache,用于高性能數據庫應用、系統的可信和安全、加解密能力等等。
将所有的需求都通過雲的方式對外呈現,呼喚新一代計算體系的誕生。
剛剛召開的雲峰會上,阿裡雲發布了雲基礎設施處理器CIPU,有望替代CPU成為下一代雲計算架構體系的管控和加速中心。
CIPU是一種新形态的處理結構,将傳統通用計算單元、滿足特定工作負載的加速計算單元、以及滿足網絡和存儲功能卸載的加速單元進行高速互聯協調,組合成一個完整的分布式異構算力模塊,高效滿足複雜多變的雲上數據中心算力場景。CIPU的體系優勢體現在網絡層面的網絡設備硬件虛拟化、網絡轉發硬件加速、鍊路硬件加解密、eRDMA技術的普惠化;存儲層面的硬件虛拟化、硬件加速以及鍊路的硬件加解密能力;同時具備硬件層面的安全和隔離能力等。
據阿裡雲透露,CIPU與計算結合,可以快速接入不同類型資源的服務器,帶來算力的“0”損耗,以及硬件級安全的加固隔離;CIPU與存儲結合,對存算分離架構的塊存儲接入進行硬件加速,雲盤存儲IOPS最高可達300萬,長尾時延降低50%;CIPU與網絡結合,可對高帶寬物理網絡進行硬件加速,構建大規模彈性RDMA高性能網絡,時延最低可達5us。
在未來三十年裡,用戶需求驅動的CIPU必将會持續在高性能、低延遲、高穩定性和安全能力方面持續加強;CIPU架構也會持續叠代降低自身的成本,例如在性能訴求不高的場景通過Multihost架構實現CIPU的池化,大幅降低其成本分攤;通過部分相對固化功能的芯片實現設計的高可用性及穩定性等。
CIPU的核心優勢是去中心化架構,不再以傳統的CPU為核心,既保留了CPU的靈活性,且兼具架構的可擴展性,在當前各種高級封裝技術的加持下,其未來具備更多的想象空間。
雲計算的發展一直是以用戶為中心,通過不斷的技術叠代解決用雲過程中遇到的各種問題。我們有理由期待,在CIPU為代表的新一代數據中心計算架構下,用戶和互聯網的創新會以更快的速度和雲計算結合,不斷推動技術的變革。未來已來!
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!