上周,Intel發布了基于其神經模态(neuromorphic)計算芯片Loihi的加速卡Pohoiki Beach,該加速卡包含了64塊Loihi芯片,共含有八百多萬個神經元。繼IBM發布True North、Intel發布Loihi之後,Pohoiki Beach又一次讓神經模态計算走進了聚光燈下。本文将為讀者重點介紹神經模态計算芯片的發展前景以及市場情況——事實上除了IBM和Intel之外,一些優秀的初創公司如aiCTX等也正在積極探索超低功耗神經模态芯片在不同領域的應用,我們認為在未來幾年内随着AI IoT的發展,神經模态計算将會迎來一波新的熱潮。
Intel發布的Pohoiki Beach加速卡,含有64塊Loihi芯片
讓IBM和Intel争相投資的神經模态計算究竟是什麼
神經模态計算是一種從生物神經元獲得啟發的計算方式。在生物學中,神經細胞之間的工作原理大緻可以概括為:當一個神經元中積累的電荷數量足夠多時,将會發射出脈沖,該脈沖一方面清空了發射脈沖神經元内部的電荷,另一方面脈沖會沿着神經突觸進入其他神經元,并在其他神經元中積累電荷,如此反複。大量神經元和突觸之間形成的網絡就是神經網絡,而脈沖可以認為是神經元之間傳遞信息的方法;另一方面神經元A和神經元B突觸之間連接的強度則決定了當神經元A發射脈沖時,會有多少電荷進入神經元B。而神經模态計算可以認為就是重現了這樣的一個過程,它使用電路來實現神經元和神經突觸以及神經網絡,并且模仿生物神經元之間使用脈沖通信的工作方式。
提起神經網絡,大家一定非常熟悉,因為今天得到廣泛應用的深度學習人工智能正是基于神經網絡。那麼神經模态計算中的神經網絡和深度學習中的神經網絡是否是一個東西?從原理上說,兩者是一緻的,兩者都是在模仿生物神經元之間連接和通信的過程,區别在于深度學習中的神經網絡是從較抽象的角度來描述生物神經網絡,而神經模态計算則更貼近真正的生物神經網絡。舉例來說,深度學習的神經網絡中也有神經元以及神經元激活的概念,在前饋過程中每個神經元的輸出值即該過程中該神經元被激活的次數,而神經元之間的連接強度則用網絡權重來表征,每個神經元的輸出乘以網絡權重再傳播給下一層的神經元,因此可以認為深度學習中的神經網絡是使用數學計算的方法在模仿生物神經系統。與之相對,神經模态計算的前饋過程中,每個神經元電路模塊每被激活一次就會真的發射出一個電脈沖(而不是直接輸出整個前饋過程中被激活的)并傳播給相連的其他神經元,因此可以認為神經模态計算是在真正重現生物神經系統的物理過程。
為什麼神經模态計算得到了這麼多重視?目前來看,首先人類的大腦還有太多未解之謎,今天的深度學習僅僅能實現人類大腦極小一部分的功能,距離人類的智能還有非常遠的距離,而使用神經模态計算直接模仿神經元系統在人工神經元數量足夠多時,或許有希望能實現比起深度學習更好的效果,更接近人類的大腦。此外,從實際的應用角度出發,目前深度學習計算在部署上遇到的困難是能效比和延遲問題,在對于功耗要求非常低的領域(如物聯網等)以及對于延遲要求非常高的領域(如無人駕駛等)部署深度學習會遇到很大的挑戰。而神經模态計算則可以解決這兩大問題。首先,深度學習由于是從數學上模仿神經系統,因此神經元被激活的次數事實上對于計算的功耗改變不大。例如神經元被激活兩次還是四次,在深度學習裡無非是該神經元的輸出是2還是4,這隻是一個乘法運算的輸入改變,幾乎不改變乘法計算的功耗。但是,如果使用神經模态計算,那麼神經元被激活兩次相比神經元被激活四次可以少發射兩次脈沖,這樣就節省了功耗,因此神經模态計算也可以說是利用了其“事件驅動”的特性來降低功耗。因此,神經模态計算的一大優勢就是其計算功耗與輸入有關,在輸入不會激活大量神經元的情況下,其功耗可以做到非常低;相反使用深度學習則無論神經元被激活的程度,其功耗幾乎是一樣的。對于物聯網應用來說,許多場景或許99%以上的時間并沒有事件發生,神經模态計算可以利用這樣的規律,僅僅在需要的時候激活神經元消費能量來完成事件識别,而在其他沒有事件的時候由于神經元未被激活因此功耗很低,從而實現遠低于深度學習芯片的平均功耗。另一個神經模态計算的優勢是存算一體,這是因為神經模态計算并非常規的馮諾伊曼架構,神經模态計算芯片一般也不會搭配DRAM使用,而是直接将信息儲存在了神經元裡(相當于生物神經網絡中每個神經元儲存的電荷)。這樣就避免了内存牆帶來的功耗和延遲問題,因此神經模态計算芯片的延遲和能效比都會好于傳統的深度學習。
神經模态芯片發展的方向
神經模态芯片的發展方向首先是規模化,即擴大神經元的規模,這也是Intel和IBM等大廠主要押注的方向。如果我們回顧深度學習的發展曆程,我們會發現其實神經網絡的原理早在上世紀60年代就已初見雛形,但是由于訓練數據量不夠以及算力不夠,因此直到2012年才被人們重新發現,并且發現了衆多之前完全沒有想到的應用場景和市場。對于神經模态計算,大廠押注的也是類似的情況:神經模态計算的原理看起來是正确的(尤其是今天深度學習已經獲得了很大的成功,那麼基于相似原理的神經模态計算應該不會很不靠譜),目前或許隻要把神經元的數量和神經突觸連接數量跨過一個阈值(就像當年AlexNet跨過網絡深度的門檻一樣),那麼神經模态計算就有可能爆發出巨大的能量,甚至遠超之前的想象。這次Intel發布的超過八百萬神經元的Pohoiki Beach系統顯然就是在往規模化的方向大力發展。根據Intel的官方消息,下一步将繼續發布神經元數量更大的Pohoiki Spring計劃,可見Intel是在往大規模神經模态計算的方向大力推進。
除了發展規模化之外,另一個方向就是利用神經模态計算低功耗和低延遲的特點并進一步優化芯片設計來開發出高能效比低延遲的芯片。這類芯片或許神經元數量不多,但是可以實現非常低的功耗和非常好的能效比,從而可以部署在傳統深度學習無法部署的場景。事實上,目前如何高效訓練大規模神經模态神經元的算法還沒有找到,因此在現有訓練框架的基礎下,或許優先把能效比做到極緻是比把神經元數量做大更接地氣的方向。瑞士蘇黎世理工大學的Giacomo Indiveri教授就是這個方向的代表性人物,研究組在十數年内已經發表了多篇電路和系統論文,其研發的芯片作為歐洲神經模态計算研究的代表性工作在2018年ISSCC主題演講中被重點介紹。
Indiveri組的神經模态計算芯片在2018年ISSCC主題演講中被重點提及
神經模态芯片如何商業化落地
神經模态芯片近幾年來的落地方向按照神經元規模可以分成兩類。
對于Intel和IBM這類在大規模神經元領域大量投資的公司,事實上也并不急着在幾年内讓神經模态芯片系統落地,而是希望在這幾年内把神經模态計算的研究、生态先做起來,等到神經模态計算研究取得突破(例如神經元跨過了某個阈值或者新的訓練算法出現,在一些關鍵領域能解決其他方法無法解決的問題)時就能獲得先機。在近幾年,大規模神經模态計算芯片的主要應用估計還是在研究上,包括作為腦科學研究(模拟大腦神經系統)系統平台供各大高校和研究機構使用。另外,Intel和IBM估計也在積極尋找一些傳統圖靈機算法和馮諾伊曼架構難以高效處理但适合神經模态計算的問題(例如優化問題等),和其他有需求的行業公司合作,以此作為神經模态計算的初步落地嘗試。
另一方面,在中等規模神經元規模、主打低功耗的神經模态芯片方向上,最近興起的物聯網将會成為最佳的落地應用。物聯網配合人工智能将會給社會帶來巨大的變化,然而目前基于深度學習的芯片難以實現物聯網對于低功耗的需求(小于毫瓦級的功耗)。這時候就是神經模态芯片大展身手的地方。在這個方向上,技術和商業化都較領先的是位于瑞士初創公司的aiCTX,該公司的技術來自于前述蘇黎世理工大學Indiveri組的研究,其芯片平均功耗可以到達微瓦數量級,目前主打的場景就是超低功耗物聯網場景,包括邊緣視覺應用(安防、機器人等場景)、可穿戴設備等等。不久前aiCTX剛發布了含有一百萬神經元的芯片DynapCNN,并且獲得了CES Asia 2019頒發的創新獎。
在中國,神經模态芯片也得到了國家和業界的重視。在研究方面,清華類腦計算中心做出了卓越的貢獻,其工作發表在全球頂級期刊和會議上。上海也于今年建立了上海腦科學與類腦研究中心,神經模态計算是該中心的重點方向之一。在商業化方面,清華類腦計算中心孵化的初創公司靈汐科技在今年發布了自主研發的“天機二代”芯片系統,使用衆核存算一體架構,具有高速度、高性能、低功耗的特點。相比國外同行,我國的神經模态計算在最近幾年得到了來自國家非常高的重視,相信在未來幾年内将會有全球領先的成果誕生。
*免責聲明:本文由作者原創。文章内容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第2013期内容,歡迎關注。
2019半導體行業資料合集 長期有效!
半導體行業觀察
『半導體第一垂直媒體』
實時 專業 原創 深度
華為|台積電|江北新區|三星|IC|AI|博世|ARM
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!