華為說這個技術還真吓人。為什麼呢?
我們知道,GPU 英文全稱"Graphic Processing Unit",即"圖形處理器"。
若你現在還以為GPU隻是一個圖形處理器,你就OUT了。
一般而言,CPU 擅長處理不規則數據結構和不可預測的存取模式,以及遞歸算法、分支密集型代碼和單線程程序,這類程序任務擁有複雜的指令調度、循環、分支、邏輯判斷以及執行等步驟。
GPU 擅長處理規則數據結構和可預測存取模式,特别适合那些超大規模的并行密集運算多線程程序。而異構計算的理念就是同時結合CPU 和GPU 的運算能力,讓它們能夠各展所長,從而兼具兩者的優勢,實現協同計算、彼此加速的。
要研究一個東西,就要先研究它的曆史。
那麼,首先讓我們來看看GPU的曆史吧。。。
一 GPU的曆史
但是,CUDA有一個非常大的缺陷就是。。。隻能在NVIDIA的GPU上使用,你說郁悶不。
2007 年12 月,AMD 在Brook 的基礎上推出了Fire Stream 通用計算開發工具,而CTM 改稱CAL。可是,AMD突然又放棄Brook ,轉而采用OpenCL(Open Computing Language)作為新的GPU計算開發語言。
2008年,NVIDIA推出了改進版GT200架構,進一步提升了性能和編程效率。與G80相比,GT200并沒有實質性的變化,隻是增加了晶體管,并改進了合并訪問要求。2010年,NVIDIA推出了全新設計的Fermi架構,Fermi是依據高性能計算用戶的要求全新設計的,提供了很多科學計算迫切需要的特性,如浮點原子函數、雙精度支持、IEEE-754(2008)浮點标準等。
從GTX200到HD4870系列開始,AMD和NVIDIA兩大廠商都開始提供對雙精度運算的支持,這正是不少應用領域的科學計算都需要的。
2011 年,AMD 推出了其APU 架構,通過在同一芯片上集成CPU 和GPU,APU 能夠提供極高的CPU 和GPU 之間的數據傳輸速度。但是目前AMD 還不能集成高性能的CPU 和GPU,因此其計算能力并不太高。
2012 年,AMD 推出了其新的GPU 架構GCN,GCN 吸取了NVIDIA GPU 的成功經驗,放棄了VLIW,轉而采用标量運算。其旗艦産品HD7970 性能大幅提升。
2012 年3 月,NVIDIA 推出了Fermi 的改進架構Kepler。Kepler 極大地降低了能耗,而在編程上面,相比Fermi,有許多大的增強,如動态并行、更快的原子操作、内核可以給自己分配計算任務、分離編譯等。
2013 年,AMD 升級了其GCN 架構,推出了GCN 1. 1。相比GCN,GCN 1. 1 可集成更多核心,效率也更高。2014 年,NVIDIA 推出了Kepler 的升級版Maxwell,Maxwell 提升了核心的計算效率,降低了指令延遲。
二 GPU在顯示上的能力
GPU Turbo還能夠幫助實現HDR的遊戲效果,有效地增強畫面細節,提升畫質。
為什麼說HDR能提高畫質?HDR到底是什麼鬼?
玩攝影或圖像視頻處理的都知道。HDR就是高動态範圍。
大家一定聽過微軟的體感遊戲機XBOX ONE X吧?
6 Teraflop GPU可呈現更多細節,更順暢地顯示動畫,讓4K環境和角色更顯逼真,前所未見。
XBOX ONE X對電視顯示的要求是比較高的。
電視需要支持4K ULTRA HD,HDR。
HDR,全稱High-Dynamic Range,是目前影像屆火爆的标準,可以讓你的顯示畫質提高到一個全新的層次,對比度更強大,光線處理更鮮明,更加真實感,現場臨場感更強。
說白了就是明暗差别。能分辨的明暗層級越多,層次越多,圖像越清晰。
你對比帶HDR和不帶HDR的圖像就知道了。
GPU Turbo是一種軟硬協同的圖形處理加速技術,恰恰就起到了大幅提升手機性能但又有效平衡功耗的作用。它不僅打破了軟硬件邊界,将系統底層對傳統的圖形處理框架進行了重構,使得GPU圖形運算整體效率提升60%,SoC能耗降低30%,提高圖形渲染效率,讓手機在長時間的遊戲狀态下保持畫面平滑,不卡頓,帶來高幀率狀态下的持續穩定。
華為的餘承東在現場介紹稱,這項技術能讓熱門遊戲滿幀跑,即便是千元機也能玩大型遊戲。"我們的團隊報告我這項技術的時候,真的吓了我一大跳!"餘承東說。
這個月從華為P20pro,Mate10等旗艦機開始,GPU Turbo這項技術都将通過EMUI推送升級。
三 GPU在深度學習以及區塊鍊等新興領域上的強大能力
更重要的是,GPU已不再僅僅是一個圖形處理器了,它已經脫胎換骨,成為人工智能時代的重要核心。
目前深度學習一般都使用GPU的模式訓練網絡,推斷網絡。
這種核心數的差異直接決定了GPU更适合深度學習。
GPU的核心一般比CPU多幾個數量級,目前主流的NVIDIA的顯卡,一般有幾千個流處理器。如NVIDIA TITAN V顯卡具備110萬億次深度學習浮點運算能力,5120個CUDA核心數。CPU内核數卻隻是個位數。
我們知道,目前的深度學習網絡主要是卷積神經網絡,其主要的運算是卷積運算。而卷積運算說到底就是矩陣乘法運算。矩陣乘法運算就是許多乘加運算的并行。
看出來沒,這些運算有個神奇的特點:類型高度統一,相互無依賴。因此具有多核心的GPU更适合這一計算密集型的任務。
比特币挖礦的礦機處理器就是用的GPU。
由此可見,GPU Turbo這門技術,華為絕不僅用于一個遊戲這樣的一個小小的領域而已,已為深度學習運算整裝待發。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!