1943年,當心理學家W.S.McCulloch和數理邏輯學家W.Pitts,經過反複地推算驗證,提出神經網絡和數學模型,并接受掌聲和鮮花時,他們心中必然有一絲遺憾,因為在晶體管還未發明的年代,紛繁複雜的數學公式無異于紙上談兵。他們肯定很難想象,80年後的今天,一場綠色的智能算力變革,會像電力、寬帶一樣,向我們奔騰而來。
01
超大AI模型呼喚更強算力
兩年前,大洋彼岸傳出的一則的消息,震動了當時的學界。人工智能公司OpenAI發布了一篇長達72頁的論文,作者多達30人,内容描述了一種超大AI語言模型GTP-3,包含了1750億神經網絡參數,不僅能自己造句子,還能編故事。在大家都在感歎《終結者》電影中的狡猾“天網”似乎正走進現實時,很少有人注意到強悍功能的背後,超大AI模型正在貪婪的吞噬着有限的算力。
“大模型成為人工智能工程化的重要方向,智能算力需求幾何級增長”,9月19日,中國智能計算産業聯盟發布的《東數西算下新型算力基礎設施發展白皮書》,一針見血地指出當下智能算力的緊迫氛圍。
AI的發展繞不過三大核心要素,數據、算法、算力。如果把數據比作工業原材料,算法就對應着生産關系,而算力就是生産力,看得見摸得着的計算中心是它現實中的代表。十年前,業内廣泛流傳的段子是“得大數據者得天下”,如今卻是“得算力者得天下”。
從數據來看,超大AI模型對算力挑戰巨大。比如說,OpenAI為了訓練含有1750億參數的GPT-3,從無到有耗費了5億美元,新搭建了一個算力中心,用掉了1萬張顯卡。而這個模型在訓練上則消耗了355個GPU的年算力,訓練的成本超過了460萬美元。
除了算力,超大AI模型對電力的需求同樣讓人吃驚,GPT-3被訓練一次就要消耗電量19萬度,按照美國碳排放标準計算,大約産生了85000kg二氧化碳當量。
可如今,對更大AI模型的瘋狂追求卻成了趨勢。尤其是在AlphaGo以5比4的成績擊敗李世石之後,各家科技巨頭像着魔一般,瘋狂挑戰超大AI模型。在OpenAI推出GPT-3之後,微軟和英偉達也不甘心被落下,一年後立馬公布了擁有5300億參數的MT-NLG大模型。
所以,研究人員現在不得不面對一個現實困境,智能算力越來越不夠用。在半導體産業,摩爾定律廣為人知,芯片中的晶體管每隔18個月左右,基本會翻一番,性能同時會提升一個檔次。而從2012年以來,人工智能産業也呈現了類似規律,複雜的AI訓練任務所需的算力,每3.43個月就會翻倍。OpenAI在整理2012到2018年算力數據後,更是發現了一個驚人的事實,六年時間内,AI算力需求竟然增長了30萬倍,這比摩爾定律更震撼。
中國工程院院士鄭緯民曾指出,下一代AI的發展亟需建設大規模AI算力基礎設施,GPT-3取得了很好的進步,但是離強人工智能還有差距,下一代人工智能模型可能超過萬億參數。
當AI大模型成為推動AI能力提升的重要工具和手段時,它的非線性甚至是幾何式增長的參數數量,将導緻AI大模型、巨量模型的計算規模越來越大,需要的硬件資源越來越多,對算力需求及其巨大。若是步入強人工智能時代,所需算力更是将呈現幾何倍增長。
02
更強的算力中心急需降溫
在算力需求嗷嗷待哺的同時,如何給數據中心節電省錢,也成了工程師們必須面對的難題,光是2021年,全國近2.6%的電力都用在了數據中心運維上,且年電力消耗增速超過60%。所以,各地數據中心面臨節能減排的重任,而接二連三的政府文件,也恰好證明了這一點。
2017年,國務院印發的《“十三五”節能減排綜合工作方案》明确要求,新建的大型雲計算數據中心能源利用效率值(PUE)要優于1.5。2021年,政府發布的《新型基礎設施綠色高質量發展實施方案》又再次強調,到2025年,國家樞紐節點的PUE值要進一步降到1.25以下,綠色低碳等級要達到4A以上。
所謂的PUE,簡單點解釋就是數據中心消耗的所有能源與IT設備能耗的比值,越接近“1”證明能效水平越好,也就說明數據中心的大部分電力都被服務器、網絡設備、儲存設備消耗掉了。但“PUE=1”隻是理想情況,按照正常的物理邏輯,強悍的算力往往意味高耗、高熱量。
首先就單個芯片來說,在制程不斷突破極限、功率奔向千瓦時,如何冷卻是頭号問題。英特爾曾在1999年對外展示過一張折線圖,内容是處理器功率密度随時間變化的趨勢。可以很明确地看到,按照摩爾定律的發展路徑,晶體管的尺寸和芯片的功率密度呈現負相關,也就是說晶體管尺寸減少的同時,芯片的功率密度反而高了。
而随着新的數據中心不斷建設、裝備了先進制程芯片的機櫃投入使用,單個機櫃的功率密度也在快速擡升。根據Uptime Institute發布的《2020全球數據中心調查報告》顯示。2020年數據中心平均但機架功率為8.4(KW/機架),相比于2017年的5.6(KW/機架)、2011年的2.4(KW/機架)有明顯提高,年複合增長率達到了15%。
而且短期來看,功耗問題難以順利解決。因為在經典的馮·諾依曼架構中,數據的處理和存儲是放在不同的地方,頻繁地高速傳輸必然導緻系統功耗很高。從某種角度理解,這也是馮·諾依曼架構的缺陷所在。所以,當全球媒體津津樂道AlphaGo打敗人類時,有一組讓人大跌眼鏡的事實,人類隻用了20瓦的大腦能耗,而AlphaGo的能耗達到了2萬瓦。
先進制程芯片的突破、功率更高的單機櫃使用,迫使數據中心使用更多的能源用于散熱。
03
液冷技術成為破局要素
2022年,《求是》雜志第二期中的一張圖片,吸引了衆多通信界人士的目光。這張圖片展示的是一款浸泡在液體中的處理器,在其周圍附着了很多移動的氣泡。在圖片旁邊還注明了一行文字:“對數字經濟對經濟社會的引領帶動作用日益凸顯,圖中液冷計算節點能夠将數據中心能效比PUE降至1.1以下,比傳統風冷技術節電20%。”
實際上,這款圖展示的正是曙光自主研發的浸沒式相變液冷技術,通過特殊的、沸點很低的液體,将CPU、内存、電源系統等發熱部件運行時産生的熱量帶出設備,之後這些液體再與水做熱交換,最終将熱量排除,達到給數據中心降溫的效果。從具體的數據來看,這樣的冷卻技術達到了極好的效果,甚至能将PUE值控制最低1.04,這說明數據中心的電力基本很少有浪費。而且,這些液體帶出的熱量還能被回收,供附近居民采暖。
在液冷技術上,曙光很早就開始埋頭耕耘。2011年,在業内競相追逐互聯網泡沫時,曙光開始了服務器液冷技術的探索與研究,2013年推出首台冷闆液冷服務器原理機,并在一年後完成産品化。有了冷闆液冷經驗,先進的浸沒相變液冷技術也就手到擒來了。2013年,首台浸沒相變液冷原理驗證機被推出,2014年原型機誕生,2017年啟動商用,兩年後,國内首個浸沒相變液冷服務器大規模應用項目落地。
在東數西算的大背景下,曙光的綠色算力方案也在有序的落地中。在全國一體化算力網絡成渝樞紐節點内,曙光在重慶市璧山區科學城打造的數據中心,就是以浸沒相變液冷技術為底座,布局建設。實際上,依托液冷技術,曙光的綠色大腦正在為國内各地、各行業提供算力,相比傳統風冷技術,一年節電量達2億度。
由曙光承建西部(重慶)科學城先進數據中心效果圖
基礎設施意味着普惠性、大衆化,也就意味着東西便宜、用的人多。18世紀的蒸汽、19世紀的電力、20世紀的寬帶,都在相應的時間節點上,順利地演變成那個時代的基礎設施,有的仍存延至今。在以液冷技術為代表的綠色算力席卷全球、貫通各行各業時,我們似乎看到了強人工智能時代的算力基礎設施,正呼之欲出。
來源|科工力量
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!