德克薩斯大學奧斯汀分校,剛剛攜手 Facebook 人工智能研究員,開發出了一套基于機器學習技術的“單聲道音頻轉換”技術。其能夠分析視頻中場景,轉換出更加令人感到震撼的“2.5D 視覺立體聲”。顯然,這項技術很适合将普通單聲道音頻,更好地運用到虛拟現實(VR)頭戴式、帶來更出色的沉浸式體驗。
人類之所以能感知到 3D 空間的立體聲,得益于雙耳的獨特結構。基于聲音傳播的時差,大腦才能夠确定物體的距離和位置。這種 3D 音頻體驗,可以通過模拟雙耳的立體聲設備來錄制和複現。
遺憾的是,大多數音頻都是單聲道格式的(錄制時就隻使用了單個麥克風)。雖然日常生活中已經“夠用”,但它并不适合 VR 等追求沉浸式體驗的應用場景。
2.5D Visual Sound(via)
有鑒于此,将單聲道音頻轉換成雙聲道,就變得很有必要。好消息是,研究人員 Ruohan Gao 和 Kristen Grauman,已經找到了一種相當接近的方法。
該方法依賴于視頻,在深度學習技術的加持下,通過分析畫面中各個物體的空間位置,即可轉換出更加立體的 2.5D 音頻。
當然,這項方法也存在着一定的限制,尤其是存在一些讓 AI 無法理解的對象的時候。感興趣的朋友,可以觀看上面這段演示視頻。
[編譯自:SlashGear]
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!