
今天谷歌用TPU、TPU Pods、Tensorflow Lite轟炸了媒體圈,可你知道谷歌宣稱的TPU 180TFLOP并沒有那麼厲害嗎?TPU Pods所對比的GPU也并非最新的版本。TensorFlow Lite在參數上并不一定競争的過Facebook。
這篇文章從另一個角度帶你理解谷歌這些技術背後的故事。
就在今早,多位從事人工智能機器訓練的一線技術大拿在接受AI100采訪時,均表示,昨晚睡得很好,并沒有半夜爬起來守着看谷歌的I/O大會。
而就在上周,就在英偉達掌門人老黃做keynote的當晚,這些人曾硬生生爬起來,将演講和所有的細節聽了個遍,并在微信裡通宵暢談。
也許,這能從側面反映出,谷歌的這次大會,并無太多的期待可言。
事實上,的确如此。
從今早開始,一直到現在,所有的媒體幾乎都在第一時間跳出來,高呼谷歌I/O大會的九大産品,五大亮點,對讀者進行了一翻狂轟亂炸。
當然,也有媒體提到這次大會略顯平淡。
不過,看完所有媒體的報道,不管是資訊,還是所謂的解讀,都差點意思,并沒有點到一些實質性的問題。
筆者在采訪了一圈一線技術大拿,又對各種資料進行了地毯式搜羅的基礎上,整理出一些有意思的點,希望能給各位提供點不一樣的料。
180就牛逼了?
去年,谷歌在他自己的I/O大會上宣布了自己研發的TPU——專門為機器學習而定制的芯片。
好好的一個互聯網公司,幹嘛要幹這些硬件呢?當然是覺得現有的GPU芯片用在自家的深度學習框架TensorFlow上,性能不給力。所以,自己動手造芯片了。
說白了,Tensorflow這樣的軟系統,才是谷歌要打的關鍵戰役。為了攻下這個堡壘,幹脆再下點苦功夫,兵器也一起造得了。
有了這個TPU,谷歌開始順理成章地用到了自家版圖的方方面面,阿爾法狗啊,搜索啊,谷歌翻譯,谷歌相冊,一腦門全上。在這些服務或者軟件背後的機器學習模型裡,全跑TPU。
不過呢,谷歌畢竟不是造兵器起家的,它的第一代TPU,并沒有太引起行業内的軒然大波。
于是乎,就在今天淩晨,谷歌又宣布其第二代TPU全面投入使用,并且部署在Google Compute Engine平台上,可以做圖像識别、語音識别,機器翻譯等等。
來看看這個所謂的第二代TPU都有啥不同。

谷歌新的TPU包括四個芯片,每秒可處理180萬億次浮點運算。

再看看英偉達上周剛剛推出的GPU Tesla2 V100,每秒隻能達到120萬億次浮點運算。
180 vs 120,谷歌更牛逼?
等等,先别急着下結論。
谷歌vs英偉達,相當于谷歌派出四個青年,毆打英偉達一個壯年。即使打赢了,就真的能說明谷歌青年體力比英偉達壯年的體力好?
不見得吧。
既然谷歌的第二代TPU是由四塊單芯片構成,也就是說,每個單芯片每秒隻可處理45萬億次浮點運算,單對單,45vs英偉達的120,還是英偉達強悍一些。
這裡,可能你又會有一些疑問:能将四塊單芯片并起來,組成一個整體,這個技術本身就很牛啊。
确實!
芯片高速互聯,這本身就是一項很厲害的技術了。隻不過呢,其難易程度,趕不上将單個芯片本身性能做大。
所以呢,可以預見,英偉達将在不久後,推出自己的單卡雙芯片。每個芯片照120來算,雙芯可達240。就算打個折扣,怎麼着也能達到每秒200萬億次浮點運算,直接秒殺谷歌今早推出的TPU毫無壓力。
再者,很多情況下,受限于寬帶,谷歌TPU每秒180萬億次浮點運算的峰值,根本達不到。
Anyway,在我們一個勁兒讨論參數時,已經有點跑偏了。
事實上,每秒多少多少次浮點運算的量,這些都是噱頭。就好比手機大戰中的“不服,跑個分?”,跑分高,就一定好用嗎?不見得!
同樣,芯片的性能好壞也是由多個緯度來體現,某一項指标的提升,并不能讓芯片的性能整體成比例提升。隻有所有指标一起變強,才可能讓芯片的性能成比例提升。
而在所有的緯度中,最底層最本質的決定因素,應該算架構。正是架構從最底層決定了這個芯片在性能和功能方面能做到什麼程度。
早期谷歌第一代TPU采用脈動架構,這個架構相比于英偉達的Volta架構,實在算不上有競争力。如果谷歌第二代TPU也采用如此構架,則很難真正意義上對GPU進行突圍。
再者,就目前來看,GPU的生态系統足夠強大,包括各種庫、框架在内的配套很完善,甚至配套的集群,都可以說是目前市面上所有芯片最為完善的。
而反觀TPU,無論是庫、框架,還是配套集群,都顯得勢單力薄。
不過,關于谷歌此次TPU的具體細節,I/O大會并沒有公布太多,其具體的性能、架構、功能等,還需等些時日,才能得知。
所以,谷歌在TPU上雖然放了個大招,但究竟後勁如何,還真是不好說。
不過,值得肯定的是,谷歌的第二代TPU相比于第一代,功能上确實更強大了。
第一代隻能用于部署,第二代則既能訓練,又能部署。
這一點倒是跟英偉達的GPU平齊了。
一芯兩用,相當于成本攤低了,成本低銷量自然能上去。
TPU Pods,百度一直想幹的事
谷歌玩組合簡直玩得爐火純青,前兒是将四個芯片組成TPU,後兒是将64個TPU組成一個超級計算體,美其名曰“TPU Pods”,可提供大約每秒11500 萬億次浮點運算能力,大大加速機器學習模型的訓練。
谷歌CEO劈柴叔在大會上自豪稱:公司最新的大型翻譯模型,如果在32塊性能最好的GPU上訓練,需要一整天24小時;而要是用谷歌的TPU Pods,隻需動用其1/8的規模,6個小時即能完成同樣的翻譯訓練。
當然,這裡要指出的是,谷歌所拿來對比的GPU可不是最新的基于Volta架構的GPU,而是老版本GPU。
如果拿32塊新版本的GPU進行訓練,可要不了24小時。
不過,總的看來,用技術大牛的話,谷歌的這個TPU Pods,正是百度一直想做卻沒做到的高密度集群,一個超過萬萬億次的集群,快趕上高性能超級計算機的能力了。
看來,谷歌為了它自家的模型,真是砸了血本要幹這一系列的配套工作。
TensorFlowLite,未來的大趨勢?
谷歌I/O大會透露出的一個最明顯的信号,就是未來會在AI上重金投入,并且将AI技術盡可能應用到各類産品,讓人們真正享受到AI帶來的便利。
為了趕緊将AI的樂趣帶來盡可能多的人,谷歌推出了一個新框架:TensorFlowLite。

這是什麼呢?簡而言之,就是原TensorFlow的移動手機版本。
TensorFlow是在2015年11月推出,其便捷靈活,性能穩定,很快便在開發者人群中走紅。
如今,移動版的推出,就是方便更多的人,在隻使用手機的情況下,也能動用機器學習,去處理語音識别、圖像搜索、增強像是等等功能。
也就是說,裝了TensorFlowLite,以後手機上跑AI 應用,也不會卡,速度也會大幅提升。

除了速度快,TensorFlowLite還有一個好處就是,保護隐私。
有了它,你壓根不需要連接上網,數據根本不需要經過雲端完成處理,因此,數據永遠不會離開你的手機。
将深度學習的框架放到移動端,這應該算是未來5年的大勢所趨。
這可是塊大蛋糕,沒人搶?
當然有。
想在這塊分一杯羹的,除了谷歌,還有虎視眈眈的Facebook。
Facebook早在去年11月就宣布在移動端布局Caffe2Go,它的戰術比較成功,先抛出一個藝術濾鏡的誘餌讓用戶使用。而這個藝術濾鏡正是由深度神經網絡的機器學習所驅動。用戶想要轉換圖片和視頻,就必須使用Caffe2Go架構。
如果未來谷歌的TensorFlowLite想在移動端站住腳,也不妨學學Facebook,多從有趣的AI APP入手,讓用戶能主動使用,這路是可行的。
從技術上來看,對于TensorFlowLite這樣的架構,可以從三個方面來判斷優劣:速度、模型、包大小。包大小又分為模型大小和程序包大小。
不過對于這些細節,谷歌并沒有太多透露。其公開源碼,可能還需等些時日。等到公布,技術人員們就可以興奮開始将其與直接競争對手Caffe2Go進行一些參數上的對比了。
總的來說,TensorFlowLite最大優勢在于,其綁定了谷歌Tensorflow這棵大樹。
試想,拿Tensorflow訓練完模型,就能直接完成,省得再轉了,這确實方便。
有沒有亮點也好,蓄勢待發也好,反正谷歌是認準了AI這個方向不會動搖了。
那麼,劈柴叔其大聲高呼得AI First會把人們的生活盡快帶入這個新的時代嗎?
➤版權申明:該文章版權歸AI100所有,如需轉載、摘編、複制等,請後台留言征得同意。若有直接抄襲,AI100将追究其責任。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!