自6月份麒麟810發布之後,華為的又一“秘密武器”——達芬奇架構NPU成為行業熱議焦點。目前Nova5、榮耀9X系列已經率先搭載了麒麟810,且無一例外均位于AI-benchmark跑分榜單前列,充分展示出這款NPU在AI計算力上的确十分強勁。
從目前曝光的信息來看,,9月6日新一代旗艦級芯片依舊會在德國IFA上亮相,名為麒麟990,很多業内人士預測這款芯片将搭載達芬奇架構NPU,以确保麒麟990保持行業領先的AI計算能力,同時賦能更多更具實時性的AI體驗。
那麼達芬奇架構到底是什麼,為什麼會被稱為“秘密武器”,又将給麒麟990帶來哪些卓越能力?我們今天就來深度解析一下。
達芬奇架構的核心優勢是什麼?如何更好地賦能麒麟990?達芬奇架構,是華為自研的面向AI計算特征的全新計算架構,具備高算力、高能效、靈活可裁剪的特性,是實現萬物智能的重要基礎。具體來說,達芬奇架構采用3D Cube針對矩陣運算做加速,大幅提升單位功耗下的AI算力,每個AI Core可以在一個時鐘周期内實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。
3D Cube
同時,為了提升AI計算的完備性和不同場景的計算效率,達芬奇架構還集成了向量、标量、硬件加速器等多種計算單元。支持多種精度計算,支撐訓練和推理兩種場景的數據精度要求,實現AI的全場景需求覆蓋。
在如智能手機等實際端側AI應場景中,AI算力與功耗的協調是至關重要的,一般來講更高的AI算力意味着更大的功耗,因此智能手機的續航常常使AI算力受限。而有了達芬奇架構NPU,這一狀況将得到改善,如果麒麟990能夠搭載達芬奇架構NPU,麒麟芯片或将再次迎來震動行業的算力升級。
DaVinci Core是如何實現高效AI計算的?在2018年全聯接大會上,華為推出AI芯片昇騰310,這是達芬奇架構的首次亮相,昇騰310相當于AI芯片中的NPU。其中,DaVinci Core隻是NPU的一個部分,DaVinci Core内部還細分成很多單元,包括核心的3D Cube、Vector向量計算單元、Scalar标量計算單元等,它們各自負責不同的運算任務實現并行化計算模型,共同保障AI計算的高效處理。
剛才已經提到,矩陣乘是AI計算的核心,這部分運算由3D Cube完成,Buffer L0A,L0B,L0C則用于存儲輸入矩陣和輸出矩陣數據,負責向Cube計算單元輸送數據和存放計算結果。
雖然Cube的算力很強大,但隻能完成矩陣乘運算,還有很多計算類型要依靠Vector向量計算單元來完成。Vector的指令相對來說非常豐富,可以覆蓋各種基本的計算類型和許多定制的計算類型.
Scalar标量運算單元主要負責AI Core的标量運算,功能上可以看作一個小CPU,完成整個程序的循環控制,分支判斷,Cube/Vector等指令的地址和參數計算以及基本的算術運算等。
3D Cube計算方式,有哪些獨特的優勢?不同于以往的标量、矢量運算模式,華為達芬奇架構以高性能3D Cube計算引擎為基礎,針對矩陣運算進行加速,大幅提高單位面積下的AI算力,充分激發端側AI的運算潛能。以兩個N*N的矩陣A*B 乘法為例:如果是N個1D 的MAC,需要N^2(即N的2次方)的cycle數;如果是1個N^2的2D MAC陣列,需要N個Cycle;如果是1個N維3D的Cube,隻需要1個Cycle。
(圖中的計算單元的數量隻是示意。實際可靈活設計)
華為創新設計的達芬奇架構将大幅提升算力,16*16*16的3D Cube能夠顯著提升數據利用率,縮短運算周期,實現更快更強的AI運算。這是什麼意思呢?舉例來說,同樣是完成4096次運算,2D結構需要64行*64列才能計算,3D Cube隻需要16*16*16的結構就能算出。其中,64*64結構帶來的問題是:運算周期長、時延高、利用率低。
達芬奇架構的這一特性也完美體現在麒麟810上。作為首款采用達芬奇架構NPU的手機SoC芯片,麒麟810實現強勁的AI算力,在單位面積上實現最佳能效,FP16精度和INT8量化精度業界領先,搭載這款SoC芯片的華為Nova 5、Nova 5i Pro及榮耀9X手機已上市,為廣大消費者提供多種精彩的AI應用體驗。
更強算力的麒麟990,開啟互聯互通的智慧新場景一直以來,麒麟芯片的AI實力之所以受到人們的認可,除了強勁的AI計算力領先行業,結合華為手機實現的衆多應用場景也受到了高度贊揚。達芬奇架構作為華為自研架構,在應用适應性方面與華為的理念一脈相承,基于靈活可擴展的特性,達芬奇架構能夠滿足端側、邊緣側及雲端的應用場景,可用于小到幾十毫瓦,大到幾百瓦的訓練場景,橫跨全場景提供最優算力,麒麟990所使用到的隻是端側AI最基本的一部分。
并且,想要真正實現萬物互聯的AI生态,離不開廣大的AI開發者,那麼選擇開發統一架構就是一個非常關鍵的決策了。對于廣大開發者來說,基于達芬奇架構的統一性,在面對雲端、邊緣側、端側等全場景應用開發時,隻需要進行一次算子開發和調試,就可以應用于包括麒麟芯片在内的不同平台,大幅降低了遷移成本。
如今,我們體驗最多的AI應用大多來源于智能手機,但對于整個AI生态來說,智能手機隻是一個開端,未來更多的AI應用湧現、跨平台遷移才能真正實現無處不在的智慧生活。因此,如果麒麟990真的搭載了達芬奇架構NPU,不止是手機算力提升那麼簡單,同時還以AI之力加速萬物互聯的智慧時代的到來。
最後,據聞8月23日采用達芬奇架構的又一款“巨無霸”将正式商用發布,這就是最新款的AI芯片Ascend 910,同時與之配套的新一代AI開源計算框架MindSpore也将同時亮相,我們共同期待。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!