是什麼在阻礙通用型機器人的誕生?
8月10日晚,雷軍在小米十一周年“我的夢想,我的選擇”年度演講上正式發布了小米MIX 4和小米平闆5系列等諸多旗艦産品。除此之外,最令人驚喜的就是結尾的“One More Thing”——小米首款仿生四足機器人CyberDog“鐵蛋”。
據介紹,CyberDog搭載了小米自研高性能伺服電機,最大提供3.2m/s的行走速度。内置超感視覺探知系統和AI語音交互系統,可實現自主識别跟随、SLAM建圖和導航避障功能,還能支持多種仿生動作姿态。
在現場,雷軍就讓“鐵蛋”表演了“握手”、“拜年”和“翻跟頭”等多種功能。此外,CyberDog還具有寵物化特征,可以滿足跟随主人的場景需求。
CyberDog
其實,自從波士頓動力(Boston Dynamics)的Spot機器狗火了以後,國内類似的産品層出不窮,包括宇樹、、雲深處、蔚藍、哈崎乃至騰訊都有相關的四足機器人問世。
不過,或許是現實與理想之間的差距過于巨大,互聯網輿論對于這類四足機器人普遍不是十分看好,較典型的評價有“這個有什麼用?”、“它到底能幹什麼?”,等等。
的确,現有的機器人還無法實現幫你從冰箱裡拿飲料、刷盤子、粉刷牆壁、搬東西上樓等等。我們大多數人能夠接觸到的性能最好的機器人就是一個帶有激光雷達的掃地機器人,或者剛見起色的自動駕駛汽車。
但相比這些專用型機器人,或許“通用型機器人”(General-Purpose Robot,GPR)才是機器人技術的集大成者。也隻有GPR才能滿足我們對機器人最完美的想象。
通用型機器人可行嗎? 要回答這個問題,我們需要從硬件和軟件兩個角度來分析。硬件層面,機器人硬件可以分為3部分:本體、傳感器和大腦。就本體而言,波士頓動力公司的Spot機器狗就可以滿足最基礎的需求。
傳感器要稍微複雜一些。幾乎可以肯定的是,我們有足夠好的視覺傳感器。激光雷達也很好,麥克風無疑也是足夠好的。然而,我們是否擁有足以用于GPR的觸覺傳感器還不确定。
最近一篇展示新型觸覺傳感器的論文顯示,将垃圾分為7類的準确率為94%。這很好,但遠沒有達到人類的水平。不過,那篇論文僅僅依靠觸覺傳感器。如果視覺系統足以識别大多數物體,機器人手臂很可能在沒有完美的觸覺識别的情況下也能操縱它們。
另外,這篇論文也它展示了在極具挑戰性的地形上的運動情況。在當前的觸覺傳感器水平上,機器人借助機器學習學會了與冰和岩石等棘手物質進行互動。就觸覺傳感器而言,我暫且認為是“快接近了”。
最後就是“大腦”了。你可能會認為大腦比傳感器更難,但事實并非如此。我們知道,我們的計算機将能夠運行所需的軟件,因為它們是通用設備。我們每個GPR可能需要大量的計算機芯片,但如果允許一些芯片存在于雲端而不是在機器人本身,我們就可以獲得幾乎無限的計算能力。
說完3大類硬件,我們再來聊聊軟件。可以說,軟件是真正的障礙,我們沒有運行GPR所需的軟件,而且需要很長的時間來開發它。更誇張點說,我們甚至不一定知道如何編寫它。
既然毫無頭緒,我們不妨從當前最火熱的神經網絡開始。通過觀察 GPT-3和 AlphaGo Zero 的成功,我們可以提出一個假設——建立一個通用機器人不需要神經網絡的進步,我們可以通過我們今天擁有的大型神經網絡來實現GPR。
按道理說,一個通用機器人隻需要做幾件事:理解人類的語言、将文字與實物聯系起來、在不破壞任何東西的情況下在三維空間中運動、在理解完一個指令後制定一個計劃實現它。
事實上,我們已經有了能做這些事情的神經網絡。例如GPT-3、DALL-E、自動駕駛汽車,以及學會玩所有遊戲的神經網絡。而且,随着任務複雜度的提升,上述這類神經網絡的能力也會跟着變強。
相比數據,更缺訓練環境 和大量的數據支持相比,巨型神經網絡的訓練需要很長的時間以及至關重要的訓練環境。正如自動駕駛汽車發展一樣,我們需要首先建立一個虛拟的訓練環境,讓神經網絡可以進行大部分的訓練。
當然,一些訓練将需要在現實世界中進行,但絕大部分将在虛拟中完成。這樣一個訓練環境将是成千上萬(數百萬)真實世界場景的集合,神經網絡可以探索并與之互動。
然而,開發必要的訓練環境是一項極其困難的任務,原因有二。
第一個是物理因素。就像電子遊戲開始看起來像現實生活,但它們仍然隻是物理建模。而現實是物理建模需要耗費的人力财力往往數以億計。
第二個是多樣性。如上所述,真實世界中有成千上萬的物體,有數十億種變化。所以訓練環境也必須囊括這些變化中的一些重要部分,這樣神經網絡才能夠歸納出所有的可能集合。而且每一個都必須達到模拟軟件的物理保真度。
因此,一旦我們創造了一個具有前所未有保真度的物理模拟環境(我們可以運行成千上萬的實例......),我們就必須讓工程師找出現實世界中發現的數十億物體的每一個物理參數嗎?
不一定。AlphaFold是一個神經網絡,在蛋白質折疊方面達到了驚人的預測能力水平。它所做的事情是“預測一個物體的物理性質”。我們完全有可能訓練出能夠預測(推斷)日常物體物理屬性的神經網絡。
在實踐中,它看起來是這樣的——你将把你的手機對準一個物理物體,并從各個角度拍攝它,也許手機會用不同層次/顔色的光來照亮它。然後你以幾種方式與該物體互動、敲擊它、向上和向下抛擲它、試着輕輕彎曲它、在地闆上滾動它,也許你會寫下它是什麼做的。
然後,神經網絡将在訓練環境中創建一個虛拟版本的物體,具有其所有的物理特征。
數以百萬計的人将不得不對數十億的物體做類似的工作。但是,相對于創造GPR的大局,這是最容易的部分。
我們今天還沒有這種虛拟化技術,甚至沒有與之相當的東西。但它是開發訓練具有GPR能力的神經網絡所需的虛拟訓練環境的關鍵一步。物理模拟和虛拟化是構建通用機器人必須克服的兩大障礙。
這之後,就相對順利了。我們可以在數千台極其強大的計算機上托管虛拟環境。另外一提,訓練巨型神經網絡僅在電力上就花費數億美元。
算一筆賬 總而言之,我們幾乎擁有開發GPR所需的所有技術。那我們不妨來看看這樣一個項目的經濟可行性。
訓練環境:Unity技術公司已經籌集了大約10億美元來建立一個世界級的視頻遊戲引擎。假設我們的虛拟環境成本是其20倍,那就是200億美元;
虛拟化100億個對象:一個物體50美分似乎是合理的,那就是50億美元;
訓練神經網絡:據估計,GPT-3需要1,200萬美元來訓練。讓我們假設,我們需要的神經網絡的訓練費用是其1,000倍,總共就是120億美元;
硬件:波士頓動力公司最近以略高于10億美元的價格被出售,讓我們假設開發我們的硬件的成本是其5倍(包括傳感器、芯片和其他東西),共計是50億美元;
制造:一旦我們完成了開發,我們将需要一個工廠。《經濟學人》最近撰文指出,世界上最昂貴的工廠為170億美元。雖然最現實是機器人工廠将比半導體工廠更便宜,但讓我們假設第一個工廠成本是其兩倍,共計340億美元。
這樣粗糙一算,總數就是760億美元。這是一個令人匪夷所思的巨額資金。話雖如此,但相比于實現的目标而言,它并沒有那麼大。阿波羅計劃的成本以今天的美元計算超過2,000億美元。
更何況通用機器人能夠賺更多的錢。一旦項目開展,它很快就會成為地球上最大的制造行業。現在,這個位置由汽車制造業占據,2020年全球收入約為3億美元。通用機器人可能會比汽車更大,保守估計行業龍頭企業将獲得10%的市場價值(蘋果的淨利率是20%)。
這意味着,在滿負荷生産的一年裡,該公司可以賺到3,000億美元。假設第一家工廠将生産價值1,000億美元的GPR,在50%的利潤率下,那就是500億美元,足以收回所有的研發費用(或工廠的成本)。
參考資料:htt
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!