提到AI的落地你最先會想到什麼?
有人想到了AI芯片的利用率以及底層硬件的調度;有人想到AI芯片的算力效益;還有人想到算力服務。
AI的落地,能夠為智慧城市的建設,更精準的天氣的預測,構建更安全的網絡環境等提供底層支撐。
但是,AI的落地依舊面對諸多的挑戰。比如,如何才能将AI用起來?如何才能漸進式的實現AI的價值?如何基于AI發展算力經濟?
這逐層漸進的問題,考驗着所有提供AI技術以及想要使用AI技術的人。對于最底層的AI芯片的提供者,目前非常棘手的問題之一就是軟件。
燧原科技創始人兼COO張亞林在2022世界人工智能大會上就表示:“根據過往落地實踐,我們發現,AI數據中心因其軟件運維複雜,普遍具有方案選型難、各廠商産品兼容未知等痛點,而且數據中心部署交付周期長、溝通成本高、項目管理周期長。”
軟件問題,特别是基于雲端高性能AI推理和訓練芯片的上層軟件和生态,限制着衆多AI芯片創新者的發展。
燧原科技創始人、CEO趙立東認為,“生态的壟斷是目前我們面臨的最大挑戰,而生态壟斷的原因是緊耦合的軟件和硬件。因此,我們一定要創新。”
為了解決當下雲端AI芯片落地的挑戰,不同的公司會從不同的維度突破軟件和生态的挑戰。
2022年9月3日,燧原科技在“算盡其用·定義AI算力中心新實踐”雲端算力産業應用論壇上給出了解決這一挑戰的答案——雲燧智算機(CloudBlazer POD)。
雲燧智算機是針對大規模、集約化人工智能算力應用場景的高性能AI加速集群,有一站式預集成人工智能加速硬件、一體化開發與管理平台及配套人工智能應用軟件與服務,适用于數字政府、科研院所、科創平台等。
簡單來說,燧原科技在解決高性能雲端AI芯片落地給出的一個解題思路就是“開箱即用”。
何為開箱即用?在交付方式上,雲燧智算機提供包括采購、安裝、運維一體的交鑰匙方案。
能夠以這樣的方式交付,還是因為雲燧智算機采用一體化設計。
硬件的算力層面,基于燧原科技已經發布的自研AI高性能芯片。在典型配置下,雲燧智算機每單元可達到8PFLOPS的TF32浮點算力,并且支持按需橫向擴容,可支持數千卡規模集群,能夠實現頂級超算的E級算力。
同時,雲燧智算機也集成了合作夥伴的CPU,提供充足的算力。但計算集群除了算力這個核心要素之外,網絡和存儲和非常關鍵。
張亞林介紹,“雲燧智算機代表了燧原科技經過多個大規模工程實踐所形成的計算、網絡、存儲的整體設計:以全局優化為目标,基于計算、存儲、管理網絡分離,全互聯無阻塞的網絡架構,結合高效的多級存儲方式,在‘邃思’AI芯片與CPU的異構算力支撐下,雲燧智算機能夠提供卓越的AI性能。”
雷峰網了解到,燧原科技的第一代和第二代“邃思”芯片已實際應用于大規模AI集群工程中,落地規模達千卡級别,場景包括融媒體生成、城市智能感知等。
當然,提到計算集群就不得不關注數據中心整體能效(PUE),特别是在雙碳目标以及綠色環保的總體趨勢,以及東數西算有政策性要求。據悉,雲燧智算機采用一體化冷闆式液冷技術,實現單節點8顆高性能人工智能芯片液冷散熱,PUE可降至1.1及以下。
前面提到,AI落地一個巨大的挑戰就是軟件。不過軟件是一個很寬泛的概念,既需要能夠提升AI芯片利用率的編譯器、庫等,也需要算力平台的管理軟件。
随最新推出的雲燧智算機一起推出的是燧原科技提供燧池智算平台(CloudBlazer Station),包含基礎設施層的異構算力調度平台,智能運維平台,馭算軟件棧SDK,算法服務層的智能算法管理平台以及訓推一體化平台。
同時,面對超大參數量的巨量模型趨勢,雲燧智算機可支持超千億參數巨量模型的高效、并行訓練,這主要是得益于雲燧智算機計算節點内基于GCU-LARE2.0多芯互聯技術提供近1TB/s的互聯帶寬,跨節點互聯能力高達600Gb/s,可實現千卡級大規模集群高速互聯。
開箱即用的計算集群确實能夠在一定程度降低使用者的門檻,但計算集群畢竟是一個複雜的系統,最終能在多大程度上促進高性能AI計算的落地,還需要用更多的落地項目證明。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!