2015年的第一屆RTC大會,議程裡隻有一個主會場,一個分論壇和一個WorkShop,參與者不到1000人。聲網攢起這場局的時候僅僅成立兩年,那時候一個關于實時互動的開發者大會更像一場滞澀的布道。
RTC(Real time communication),翻譯過來叫做實時通信,也可以被理解為實時音視頻,這在七年前是一個新詞。但風已經吹起,2016年抖音出現,将開始一場與剛完成轉型的快手之間的競争,同年淘寶上線直播功能。短視頻與直播電商的大幕幾乎是同時拉開的,實時音視頻技術則是藏于背後的概念,開始醞釀一場對于社交甚至整個泛娛樂領域産品的全球變革。谷歌、阿裡巴巴、陌陌以及快手的身影,緊接着出現在2016年的第二屆RTC大會上。
對于實時互動曾經的猜想變成了确實的生長空間。七年之後,全球娛樂應用年收入突破100億美元,全球社交應用年下載量也首次越過70億次。疫情影響下泛娛樂應用的增長勢頭迅猛,實時音視頻已幾乎成為市面上所有産品的基本要素,全球範圍内所有泛娛樂産品用戶的使用總時長超過了10萬億分鐘每月。
聲網在2020年完成上市,并且在上市招股書中首次公開提出“RTE(Real-Time Engagement)”的概念,後者從2021年開始代替RTC成為這場大會新的名字。
“RTE更聚焦用戶所需要的共享時空,即俗話說的場景。 并且能夠達到或者超越線下場景的互動體驗和效果,這是RTE真正聚焦的部分,其内涵和外延的範圍遠遠超過了RTC的領域。”聲網創始人兼CEO趙斌在今年的RTE大會上表示。
從RTC到RTE,也是一條從基礎能力到場景化能力進化的道路。曾在最初引領起實時互動技術風潮的聲網,也已經建立起一個豐富生态,在RTC賽道的市場占有率達到43.4%,穩居市場第一。泛娛樂領域新的變革,也會從聲網的技術革新開始。
新的變革
全球頭部的社交泛娛樂用戶的産品裡包含直播場景的比例開始超過50%。在全球社交Top100的應用中,有大約20%左右的應用包含RTC實時音視頻的能力。“而在互動社交玩法的快速叠代中,一些對于聲音層面更細顆粒度的要求開始出現”,聲網泛娛樂産品負責人李斯特表示。
相比畫面,聲音是更原生的素材,也更容易左右一種沉浸感的塑造或被破壞。泛娛樂産品的演進是一場對于沉浸感的追逐,最大程度還原真實的聽覺感受也引領着聲網最新的的技術革新。
随着深度學習的發展,當前基于數據驅動的 AI 語音降噪算法發展迅猛。幾年前,聲網成為首個将 AI 算法全面引入實時互動領域的技術服務商,今年聲網在AI降噪技術上取得了突破性進展,已經可以做到對于上百種突發性噪音的有效抑制。
與AI降噪相對的是傳統的DSP(digital signal processing)算法降噪。後者的工作原理是先用麥克風獲取外部噪音,轉換成數字信号後主動轉換出一個與噪音相反的反向聲波來抵消,比如Air Pods或者Bose做的降噪處理一樣。但DSP算法降噪的缺點是這個轉化再生成反向聲波的過程需要時間,這會造成噪音與降噪效果之間産生延遲,在某些對于聲音極度嚴苛的場景——比如冥想——這種噪音的出現會嚴重影響體驗。
“常見的電視噪音,開關門或裝修的聲音,或者玩遊戲時手指與屏幕接觸的一些聲音,我們都有對應的一些算法模型去做有針對性的消除,”李斯特表示。
AI降噪相較于DSP算法等傳統降噪思路的一大優勢是其不依賴于任何假設條件,因此處理非穩态噪聲效果顯著。這讓前者它能有效的降低各種突發式、不持續、甚至不規律的噪聲信号。并且作為一種純軟件算法,AI降噪并不依賴于硬件。也就是說,這種降噪能力将會以超低延遲的端上消除模式實現。
空間音頻領域的技術進步同樣令人期待。
如何依靠聲音來描述位置感,這是在虛拟中塑造出臨場感的關鍵。但空間感并不隻是左右聲道,聲網試圖在3D的空間中去重建聲音在真實環境下的物理效果,并實現了一些具體的效果。
聲網3D空間音頻通過純軟件算法方案,模拟頭部球面區域立體聲場,使用戶在音頻聽感上具有空間感。當用戶操作虛拟人物在虛拟場景裡移動,可以實現根據虛拟人物的面部朝向、音源朝向、遠近距離與上下高度,呈現不同聲音效果。
“包括聲音在傳播的過程中的阻礙、衍射、繞射,聲音在互相影響造成的一些混響,以及在一定範圍内的一些人聲模糊的效果”,李斯特表示。
人聲模糊功能實現了對環境中人聲的模糊化,這意味着類似現實場景中——比如酒吧或劇院——環境氛圍中存在嘈雜的人聲,但當你在與朋友交談時,實際上聽不清其他人在說什麼的效果可以被還原出來。除此之外,聲網也實現了空氣衰減模拟的功能——當朋友在虛拟空間中位置變遠,其聲音也會變弱。
“易用”、“沉浸感”以及“有趣”,是聲網作為一家技術服務商所感受到的泛娛樂社交産品對于音視頻能力的核心需求。關于前兩者,AI降噪技術是很好的例子。降噪技術的進步會迅速提升音視頻産品對于環境的寬容度,而純軟件算法的研發方向也提升了技術的易用性對于設備的寬容度,這一切都指向“沉浸感”的高效實現。
而“有趣”是更天馬行空的事,随着新的場景和玩法在近幾年不斷湧現,Z時代群體們究竟在尋找一種怎樣的社交和娛樂方式,輪廓也在逐漸清晰。
去找年輕人想要的
無論是在中東迅速流行起來的語聊房産品Yalla,還是日本的二次元音頻社區LisPon,或是在拉美爆紅的Oasis,背後都呈現出一種多元化的娛樂社交傾向。這曾被描述為一種“松圈主義”,即現在的年輕用戶相比以前愛好更加多元,卻更難被單一的事物或圈子完全吸引,Z時代的年輕人更偏愛一種“不親近,也不疏離”的距離感,以這種方式增大自己與這個世界的接觸面,并在這個過程中尋找認同。
如果說的通俗一些,從近來火爆的泛娛樂産品中尋找共性的話,Z時代年輕人尋求多元而更加個性化的玩法,并且歡迎這些豐富的場景最終切入社交場景,這開始成為年輕人找到自己的同類和社區的常規方式。于是許多結合了遊戲或直播元素的社交産品在近幾年開始聚起聲量。
李斯特表示,聲網在互動遊戲、組件化的音樂能力等方面都比之前開放了更多能力。比如遊戲中對于語音識别以及多人競技等複雜互動場景的支持;在音樂場景中對歌詞組件、演唱打分等遊戲玩法,聲網會提供對應的開源項目,幫助開發者夥伴能夠更快完成基礎能力的搭載。
“音樂正版化是最近一年我們看到的大趨勢。在直播、語聊領域,過往大家通過本地播放背景音等手段去獲得在線互動的一些音樂體驗。一方面這樣的體驗可能不是特别好,另外一方面也有巨大的版權風險。”
随着直播的興起,音樂侵權開始成為一個愈發尖銳的問題而開始被重視。2021年6月1日開始施行的新《著作權法》中明确規定,網絡直播中使用音樂錄音制品應該向錄音制作者支付報酬。
聲網今年攜手中國音像著作權集體管理協會,推出了版權音樂曲庫。曲庫中整合了約25萬首以上的明星熱門單曲,目前包含了高品質音源、逐字(音)歌詞等一些完整的素材,并支持直播、語聊房等泛娛樂全場景調用。
而元宇宙的概念看上去是年輕人設想中沉浸而多元的終極泛娛樂産品。
2020年,幾乎沒有預兆的,一款主打元宇宙社交的産品Oasis在登陸巴西兩個月後爆火,上線個月就已登頂巴西社交類2 AppApp 榜單,并在一年内超越Facebook、Twitter、Instagram成為巴西年輕人最熱捧的應用之一。Oasis的熱度從南美地區開始擴散,随即進入美國、菲律賓等十多個國家名列社交類 App 榜單前列,并在2021年Q4增長超過600萬注冊用戶,成為全球範圍内增長最快的元宇宙社交産品之一。
人們在Oasis裡創造自己的虛拟形象,然後一起玩遊戲、唱歌、找到自己的興趣Club。這裡有理論上可以無限擴展的“虛拟活動”。在這樣不斷豐富的玩法和場景背後,作為底層技術服務商的聲網也在不斷積累着技術叠代的經驗。
聲網針對元宇宙産品開發者所面對的不同場景提供組件化能力,這能夠為開發者降低産品開發門檻,也更便于小團隊在初期更迅速的将創意落地。包括雲K歌、虛拟漫展、虛拟招聘會,虛拟演唱會以及元宇宙婚禮,聲網方面表示今年已有10多個合作夥伴上線了有一定用戶影響力的元宇宙應用。
造船的人也最知道海水深淺。在以技術服務商姿态為元宇宙概念提供基礎能力模塊,力求最大化行業效率的同時,聲網也清楚目前元宇宙的互動内容積累和玩法創新仍然還在起步階段,遠不能匹配外界對于這一概念的熱忱。
“從數據來看,大部分元宇宙産品的單次使用時長都低于5分鐘的,并且每周打開次數低于50次”,李斯特表示,“表示目前元宇宙産品市場上在産品形态、交互設計、視覺感受方面的創新,還不足以構成一個産品的核心競争力。”
結語
可以想見的是,元宇宙甚至實時互動技術的應用本身,都仍然處在一個發展早期階段。這與實時互動技術在泛娛樂社交、線上辦公領域已經看出一些繁榮迹象并不矛盾。在這種不斷的探索中,聲網提出的RTE概念和它的邊界也已經愈發明确。而實時互動最終會超越場景的限制,真正成為互聯網新的“水電煤”。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!