回想一下你曾經玩過的 3D 遊戲:遊戲場景可随鼠标前後左右任意角度移動,玩家也可獲得完全沉浸式的體驗感受。
與此相同,假如未來 3D 觀球方式普及,你也可以用手指移動任意角度,清楚地觀看球賽中的扣籃和進球。
圖 | 用 4 個 RGB 相機實現自由視點(來源:受訪者)
近日,浙江大學計算機輔助設計與圖形學國家重點實驗室的 “百人計劃” 研究員、博士生導師周曉巍團隊的論文,發表在計算機視覺頂會 CVPR 2021 上(IEEE Conference on Computer Vision and Pattern Recognition)。其中,周曉巍擔任通訊作者,其學生彭思達為第一作者。
圖 | 相關論文(來源:受訪者)
研究主要成果是一款名為 Neural Body 的新型視圖合成技術的實現與發展。綜合來看,Neural Body 在使用時,其選取的輸入視點較少,還能更好地捕捉人物的動作,高效完成 3D 立體呈像。
這也意味着,将來的某一天,使用更少的攝影機,就可為全球各地觀衆帶來一場親臨現場般的沉浸式觀球體驗。
圖 | 從單個視頻實現人體重建與視圖合成(來源:受訪者)
少量角度拍攝,合成 360° 人體 3D 視圖傳統的 3D 視圖合成技術一般比較依賴于 3D 重建,這種技術主要有兩大限制 :一個是重建質量有限,導緻視覺真實感較差;另一個是沒辦法處理一些反光表面或者透明區域。
随着技術的推進,近年來基于神經網絡實現三維場景表示與渲染的技術逐步發展,以谷歌的 2D 圖像轉 3D 模型 NeRF 為代表,它能較好地解決上述問題中的一部分。
圖 | Neural Body 的基本概念,Neural Body 可以基于神經網絡從一組隐編碼生成人體在不同幀的三維影像(來源:受訪者)
但是,周曉巍表示:“我們意識到,還有一個問題沒有解決,那就是動态場景的視圖合成。” 他說,當場景是随着時間而變化時,我們需要能夠建模這種變化,NeRF 作為針對靜态場景的技術對此束手無策,而這正是該團隊研發 Neural Body 技術的初衷。
圖 | 和其他模型的對比(來源:受訪者
如果沿用靜态視圖合成的思路,一種方法是采用多視點的拍攝,當輸入的圖像角度足夠多,理論上就能實現每一時刻單獨去學習 3D 表示及渲染圖像的目的。
但這需要大量相機對同一個人進行不同視角的拍攝,成本非常之高。“所以我們想的是怎樣才能降低采集的成本,用非常稀疏的視角輸入,比如三四個 RGB 相機就可以完成視圖采集。今天,Neural Body 真的做到了。”周曉巍說。
圖 | 隐式神經表示與結構化隐編碼(來源:受訪者)
概括來說,Neural Body 的貢獻主要有以下幾點:
上文提到的 NeRF 是基于一個叫輻射場(radiance field)的 3D 表示方式來完成視圖合成。那麼,什麼是輻射場?
“你可以把輻射場理解成 3D 空間内每個點所發出光線的集合,記錄了每個點的光線顔色及密度,基于輻射場就可以渲染出各個視角的圖像。” 周曉巍表示。
對靜态視圖合成技術來說如 NeRF,當處理動态場景的時候,它需要針對不同時刻去學習不同的輻射場,而這些輻射場之間沒有關聯,因此學習效率很低。
圖 | 視圖合成技術的對比(來源:受訪者)
Neural Body 與衆不同的地方就在于,其假設不同時刻的輻射場都由同一組隐編碼來生成,這一組隐編碼附着在人體模型上,會随着人體運動。這樣就可建立起不同時刻輻射場之間的聯系,從而充分利用視頻中所有時刻的信息,來學習人體的 3D 表示。
針對此方法,他們創建了一個多視圖數據集來進行評估,該數據集使用一個有 21 個同步攝像頭的多攝像頭系統,共捕獲 9 個動态人體視頻,并選擇 4 個均勻分布的攝像機進行訓練,使用剩餘的攝像機進行測試。
所有序列的長度都在 60 到 300 幀之間。結果表明,當人物進行複雜的運動,包括旋轉、太極、手臂擺動、跳舞、拳擊和踢腿等動作時,都能實現較好的重建與視圖合成。
圖 | 呈現各種動作的人的 3D 表示(來源:受訪者)
通過對比可以發現,本次方法相比其他方法,能呈現出更多人物外觀細節,特别是對于穿着寬松服裝的實驗者來說,Neural Body 可以精确地進行渲染,以下圖女士為例,使用其他方法出來的效果圖,其衣服和身體緊貼,而 Neural Body 出來的效果中,可明顯看出衣服的輪廓。
圖 | Neural Body 渲染的襯衫不會與人體緊密相連(來源:受訪者)
未來有望大規模應用于電商直播和 VR 看房
随着 Neural Body 的不斷叠代,周曉巍下一步會逐步優化技術。目前有幾個地方亟待優化:
Neural Body 目前依賴于對人體動作的捕捉。在運動捕捉穩定性上,該團隊近兩年正在逐步提高。随着算法的不斷叠代、以及硬件設備的改善,當 Neural Body 效率能夠穩步提升到一個更高的層次後,實現商用将會指日可待。
對于未來的應用場景,周曉巍表示:“随着 3D 技術的發展,VR 産業正在迅速崛起。無論是對物品進行 360° 展示,還是體育比賽的自由視點觀賽,或者說全息的沉浸式遠程會議,都是 VR 将來的重要應用領域。而這些應用背後的關鍵技術正是視圖合成。”
周曉巍認為,視圖合成技術在短期内可能很快實現大規模應用領域為:電商領域、場景浏覽如 VR 看房等。
從長遠看,該技術的最大剛需是在“人人交互”上,如今天我們已經習以為常的語音連線和視頻連線。可以想象,當 Neural Body 的技術更成熟後,開會就能以 3D 形式呈現,從而實現真正的遠程零距離交流,就像坐在一起一樣自然真實。
目前,該研究的相關代碼已經在 GitHub 上開源,主要使用 Python 編程,少量代碼使用 Shell 編程。該工作的合作者,還包括浙江大學的鮑虎軍教授、張遠青、帥青,香港中文大學的徐英豪,以及康奈爾大學的王倩倩。
堅定學術生涯,選擇回國發展周曉巍屬于實打實的“學習他人,為我所用”,2008 年其本科畢業于浙江大學,2013 年獲得香港科技大學博士學位,随後三年間,他在美國賓夕法尼亞大學 GRASP 機器人實驗室從事博士後研究。
圖 | 周曉巍(來源:受訪者)
正是這三年的博後研究,才使他堅定了 3D 視覺的研究方向。随後,他帶着熱忱與夢想踏上了回國歸途。
談及回國原因,周曉巍覺得這是一個正确的選擇,他看好國内的發展,認為國内相比國外在某些方面具有優勢。
他說:“我個人感觸比較大的是産學研的合作機會比較多。比如目前我們跟商湯、華為都有非常緊密的合作,通過這種産學研的結合,我們的研究成果既有對學術前沿的探索,又能根據實際需求去攻克一些技術瓶頸。與此同時,國内的 3D 視覺領域還處于新興發展階段,也需要我們回來一起把這個方向給發展壯大起來,不斷縮短與國際領先水平之間的差距。”
而之所以沒有選擇進入業界,是因為他更喜歡學校的氛圍。他覺得,從研究方向和周期上來說,在學校的自由度會大一些。
另一方面,在學校有機會接觸到一些新萌發的想法和智慧 —— 這裡往往聚集着一些最聰明,最有才華和想法的學生。通過和他們一起讨論與合作,可以把好的想法快速落地變成現實。
并且,浙大本身也有很多優秀學生。比如,本次研究中的彭思達雖然才 25 歲,但實戰經驗已經相對頗豐。
他目前是浙江大學 CAD&CG 國家重點實驗室三年級博士研究生,研究三維重建與物體位姿檢測。2019 年,彭思達參加中國研究生人工智能創新大賽,在一千多支參賽隊伍中獲得第一名。2020 年曾獲評 CCF-CV 學術新銳獎,該獎項每年由中國計算機協會視覺專委會在前三年的領域内博士中評選三人,相關論文開源到 GitHub 後,已獲得 Star 數 2000 餘次。
圖 | 彭思達(來源:受訪者)
談及研究過程,彭思達告訴 DeepTech:“一開始周老師讓我做這個研究時,我幾乎沒有頭緒。當時他給我看了 NeRF 和 DynamicFusion(此前動态三維重建的一個經典工作)這兩篇文章。仔細研究後,我發現可以利用統計人體模型來整合時序信息,于是就有了 Neural Body 這篇文章。在此之前,我對統計人體模型一點了解都沒有,多虧了組裡帥青同學的幫助。全部做下來,最大的感觸是:個人的知識總是有限的,要利用好實驗室的資源,才能做出紮實的工作。”
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!