文/VR陀螺
随着Oculus将于2020年初在Quest中加入手勢識别功能這一消息發布,手勢交互終于打破局面,開始真正走向消費端。
為什麼普通攝像頭 深度學習方案更适合VR/AR?
此次Oculus Quest手勢識别使用了基于計算機視覺的手勢識别的技術方案。(感謝淩感科技uSens費越博士對本文技術部分的支持)
VR陀螺從費越博士口中了解到,目前基于計算機視覺的手勢方案實際上也分為兩種:一種是用深度攝像頭,一種是用一個或者多個普通攝像頭實現。 而其中深度攝像頭的方案又分為兩種,TOF(Time of Flight,光飛時間)和結構光。 實際上結構光,或者TOF輸出的東西基本一樣,都是一張深度圖。
相對于兩種使用深度攝像頭的方案,基于一個或多個普通攝像頭實現的手勢識别難度更高,但得益于技術發展,其在精度、成本綜合性能上正在成為主流。 業内的Leap Motion、淩感uSens就是使用這種方案,Oculus Quest也是使用原有的用于SLAM和手柄跟蹤的四個灰度攝像頭用深度學習算法來實現的手勢識别。
淩感uSens自2015年就開始使用深度學習技術實現手勢識别,并在2017年發布了和Oculus Quest類似的基于灰度攝像頭的手勢識别及SLAM方案。 不久前淩感還研發發布了單目RGB相機上的三維手勢骨骼識别,可識别手部全部22個關節點的26DOF(26自由度)信息,關節點包括3D位置信息和3D旋轉信息。在單目RGB相機上實現三維手勢骨骼識别相對于多個灰度相機的方案來說算法的難度更高。
近年來TOF方案在手機上應用越來越廣泛,也是最容易實現深度信息的方案,但在VR、AR設備上卻幾乎沒有。原因可以從以下幾個方面來看:
AR、VR對相機要求非常高,首先必須做到延遲非常低。據稱,普通相機延遲可以達到4ms以下,從相機獲取圖像到把圖像傳過來的延遲都控制在10ms以下。但TOF相機難以做到,一般TOF相機獲取圖像的過程延遲約為四五十毫秒。因為TOF相機的工作原理不是拍一張圖像,而是要連續拍多張圖像,再根據圖像不同的激光的相位,來還原出深度信息。而拍多張的後果導緻延時高,并且要求一定的計算,也需要耗時。同時,這種方案還會有一些運動模糊,如果手動作特别快,在多張圖像中的位置不同,也會導緻信息測算不精準。
對于AR、VR來說,它的要求比一般手機識别人臉的要求高非常多。手不管動得多快,都必須有反應,需要精确、低延遲,不然容易産生眩暈。
TOF的第二個問題在于視角。在VR中追蹤範圍越大,手、手柄能夠運動的幅度就越大,灰度相機配上魚眼鏡頭可以視角達到160度以上,多相機系統可以達到200度以上的覆蓋範圍。但一般性能比較好的TOF,視角約為60度,最大也隻有90度左右。
TOF在手機上可行,但對VR、AR應用來說,緻命的就是延遲和視角。
所有VR、AR硬件低成本加入高精度手勢識别成為可能
得益于計算機視覺和深度學習技術的發展,終于能夠在普通攝像頭上實現精度較高的手勢識别,當然要實現起來并沒有那麼簡單。
根據資料,Facebook對VR的手勢識别感興趣的第一個迹象早就在2014年底顯露出來。其收購了由4名資深手勢識别技術專家組成的初創公司Nimble VR。但是收購之後,Oculus清楚地知道該技術“甚至可能不會在CV2或CV3中使用”。2016年的OC3大會上,首席科學家Michael Abrash預測在2021年的VR中能夠使用基于手套上标記實現的手勢識别,這時在Oculus的計劃中仍然是手套形态。
不過在2018年的F8上,Oculus終于展示了高質量的無手套、無标記的手勢識别,并提到這一“突破”是由于Facebook在機器學習研究上的大量投資而得以實現。
實際上,早在2015年,淩感基于普通相機 深度學習的方案已經研發出來。
要讓手勢識别實現更高的精度,識别更多的關節點是其中最基礎的部分,比較高級的能夠做到識别22個關節點26自由度的手部運動信息,如淩感uSens、Leap Motion以及Oculus收購的NimbleVR等。
另外,對手勢識别精度起到決定性的還有兩個因素:一個是模型是否好,隻有好的模型才能預測出來更多3D的點。第二是需要有足夠的高精度的數據,才能訓練出來好的模型。
因為深度學習有推測功能,從不完全的信息可以推測出來完全的信息。手不像人臉,手的運動非常複雜,經常會出現遮擋問題,甚至兩個手相互遮擋,所以信息是不全的,如何從不全的信息推理出來全的信息,就需要用到深度學習不斷訓練和積累。據稱淩感的手勢識别經過多年積累已經可以在被遮擋超過50%的情況下,将誤差控制在5%以下。
據費越博士稱,VR、AR設備中加入手勢識别,可以基于已有的用于SLAM的灰度攝像頭直接實現,不需要增加外部硬件。
在inside-out追蹤成為主流的如今,近兩年無論是PC端VR頭顯還是移動端VR一體機,亦或是AR眼鏡,幾乎都加入了SLAM定位功能。這樣的大前提為手勢識别技術的普及帶來了極為有利的條件。
目前大部分用于SLAM的攝像頭均為魚眼或者廣角灰度攝像頭,在實現的精度上,用同樣的計算資源或者用同樣複雜度模型的話,基于深度的或者灰度的攝像頭能夠做到精度最高,RGB的精度反而相對會弱一些,因此,直接在SLAM的相機上實現手勢識别的精度也能夠達到比較滿意的效果。
另外,對于頭顯的功耗負擔,據費越博士稱,以淩感自己的産品為例,在同時運行SLAM定位追蹤和手勢識别的情況下,即使完全使用CPU的模式下,所占用的CPU的資源可以能夠控制在30%以内,所以大部分的CPU運算能夠留給軟件運行。另外淩感的手勢識别目前還針對高通、MTK、瑞芯微等芯片中的NPU做了移植,進一步降低了CPU資源占用。
此外,為了擴大手柄的追蹤範圍,目前的VR/AR頭顯采用了更多的攝像頭,如Quest、Vive Comos使用4個攝像頭,Rift S采用5個攝像頭。之前手勢需要手保持在眼前位置才能精準捕捉到,随着頭顯追蹤攝像頭的增加,也極大擴展了手的可捕捉範圍。
“最自然交互”手勢識别将成VR/AR頭顯标配
在Oculus Quest之前,手勢識别實際上已經成為了AR眼鏡中最基本的交互方式,而VR上Vive Focus等設備也都開啟了嘗試。
手勢識别如果要大規模應用,僅靠以B端為主的AR難以實現。而在VR端,目前真正面向消費端的帶有該功能設備以及相關應用都極其稀缺。
作為現階段全球在消費端最有潛力的VR一體機,Quest上加入手勢識别功能或許将打破這一現狀。
實際上在使用基于計算機視覺方案之前,Oculus Touch手柄已經實現了一部分手勢動作,如握拳、豎拇指、開槍等手勢,包括Valve Index的指虎手柄,也是為了在遊戲中呈現更為自然的手部動作。Quest加入手勢識别,意味着這一技術終于真正開始面向消費端用戶,也将帶來更多開發者針對這一交互開發探索出更多的内容形态。
費越也提到,淩感的手勢識别目前主要應用在三大領域,以AR、VR、手機為主的2C領域,汽車領域以及工業自動化領域,其中VR、AR、手機領域需求增長非常迅速。
“交互的最終形态不需要定義,他做的就是人在真實世界裡面要做的事情。”
VR、AR的獨特之處在于沉浸感,而在沉浸環境中,最自然的交互莫過于與現實中一樣,揮手打招呼、猜拳、握手、抓取、擊掌……
從智能終端的發展來看,從PC到手機,一切都在簡化,特别是在智能手機時代,交互簡化到隻需要滑動、點擊,就連2、3歲的小孩都能輕易上手。
VR、AR的交互複雜,也代表着用戶的學習成本越高,同時也容易“出戲”。現在除了純觀影類的内容之外,幾乎所有帶交互内容都需要一定的學習過程,用戶需要在體驗過程中記住每個按鍵所對應的功能。
即使Index指虎手柄能夠感應到手指在其中的運動,不過對于更細緻的骨骼追蹤精度與專業的手勢識别技術仍然有一定的差距,而且手柄會受到每個人手部大小的限制,也難以實現握手、雙手合十、交叉等等複雜姿勢。
手柄與手勢兩種交互方式各有優劣和适合的使用場景。比如手勢無法實現手柄按鍵的物理反饋,特别是射擊類型的遊戲體驗中,扣動扳機的反饋是手勢絕對難以做到的;以及Index指虎手柄的壓力反饋,能夠在虛拟環境中呈現握力,手勢識别亦無法實現。
而在諸如模拟、社交類這類的内容中,越接近真實的場景對于手勢越有優勢,開發者可拓展性也更強。
手勢在需要觸覺反饋的體驗上無法取代手柄,而手柄也無法自然地實現手部動作的呈現以及複雜的手部姿态,但從毋庸置疑的是未來手勢将會變成XR設備中不可或缺的一種交互方式,越來越普及。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!