4月20日,聲網Agora宣布對實時合唱技術方案全面升級,幫助國内知名迷你KTV品牌“咪哒”實現國内首個支持多終端、多人合唱、高音質的完整實時合唱解決方案的落地,結束了國内K歌行業長期探索“實時合唱”場景,卻一直未能上線的現狀。
在介紹聲網完整的實時合唱解決方案前,我們先來回顧下目前在線K歌行業常見的兩種在線合唱玩法,以及真正的“實時合唱”面臨了哪些技術難點?
體驗過在線KTV合唱玩法的用戶都了解,目前幾乎所有的在線合唱都是通過錄制合唱與單通合唱兩種方式實現,以主唱A、用戶B為例:
錄制合唱:主唱A根據伴奏演唱——完成後點擊上傳——用戶B選擇帶有A歌聲的伴奏再演唱——錄制完成後間接完成合唱。
單通合唱:主唱A發起合唱——伴奏發給主唱A——主唱A的歌聲 伴奏發給用戶B
——用戶B加入一起唱。
第二種方案,看似是實時的,其實從體驗來講并非是合唱,其原因在于:用戶B與聽衆可以聽到主唱A的歌聲,而主唱A聽不到B的歌聲。此外,主唱A出現問題,用戶B就無法繼續,這種方案還不支持兩人以上合唱。
而我們想要的真正的“實時合唱”應該就像是将線下K歌房的合唱情景照搬到線上一樣,雙方同時聽到伴奏後一起合唱,彼此都能實時聽到對方的聲音。
實時合唱面臨合唱同步、高音質兩大技術難點
早在2018年,聲網就曾提出實時合唱的技術設想,但由于整體網絡基礎設施不夠成熟等原因一直未能真正集成上線,此後聲網針對實時合唱場景進行了長期的技術打磨,并與“咪哒”以及國内多個在線K歌平台、智能電視廠商反複集成測試,最終推出了高成熟度、超低延時、可落地的、完整的實時合唱解決方案。聲網在與客戶共同打磨的過程中總結了該場景的兩個核心技術難點:
1、合唱同步:這裡的同步指的是兩個用戶的歌聲與伴奏三者之間的同步。我們先假設唱歌的兩位用戶都是專業級的,踩不準節奏的問題完全不存在。如上述場景描述,由于伴奏是同時發送給兩個用戶,那麼關鍵就在于兩者的歌聲是否能同步。影響合唱同步的主要因素就是延時。
不考慮伴奏的情況下,假設用戶A和B之間的端到端延時為100ms。從聲音傳輸流程上來說,會出現以下這種情況:
A先唱,B聽到A的歌聲。此時産生100ms延時;
B在聽到A的歌聲後開始加入合唱,歌聲傳到A端。此時又産生100ms延時;那麼
A聽到B的歌聲永遠延時200ms;
假設在線KTV中200-300ms唱一個字,那麼用戶在聽感上會至少慢半個字,會有錯
位感。
2、實時合唱的高音質:
唱歌的人都有一個共同的心理需求,就是希望别人誇自己唱得好聽。音質在合唱場景下就顯得尤為重要。而影響實時合唱音質的因素主要包括:音頻采樣率、碼率、延時。
采樣率:是每秒從連續信号中提取并組成離散信号的采樣個數。采樣率越高,音頻
聽起來越接近真實聲音。
碼率:它是指經過編碼(壓縮)後的音頻數據每秒鐘傳輸所表示的數據量(比特)。
碼率越高,意味着每個采樣的信息量就越大,對這個采樣的描述就越精确,音質越好。
假設網絡狀态穩定不變,那麼采樣率越高、碼率越高,音質就越好,但是相應單個采樣信息量就越大,傳輸時間可能會相對更長。也就是說,高音質也可能會影響延時。
此外,實時合唱還會面臨音頻傳輸過程中産生的延時、與手機端、電視端、KTV端等一系列硬件設備的适配、兼容性的問題,多重技術難點讓很多想推出實時合唱玩法的K歌平台、社交平台、電視廠商等很是“頭疼”。
聲網發布行業首個完整的實時合唱解決方案
針對這些技術難點,聲網推出了行業首個完整的實時合唱解決方案,不僅有效解決合唱超低延時、伴奏同步對齊、合唱人數靈活性、高音質保障等一系列問題,聲網還提供50ms超低延時耳返、歌詞同步、歌唱美聲、音浪頻譜等一系列功能,形成了一套業内高完整度的實時合唱解決方案。
聲網實時合唱方案架構大緻如下:
主唱端與各個合唱端同時從本地獲取BGM,随着伴奏同時開啟演唱;
通過SD-RTN?傳輸和調度,主唱與合唱們可以實時聽到其他人的歌聲,達成合唱。
同時觀衆可以享受到演唱者們“0延時”的合唱效果。
圖:聲網實時合唱技術方案架構
在聲網的實時合唱方案中,圍繞超低延時處理、高音質體驗、伴奏精準同步、合唱人數靈活等形成了六個維度的核心優勢。
實現端到端64ms超低延時
在聲網實時合唱解決方案中,主唱和合唱端同時聽到伴奏,同時演唱,各方可以實時聽到其他演唱者的聲音,消除了接唱前産生的延時。合唱延時要解決的問題就是降低各自歌聲傳輸到對方的這段端到端延時了。
針對音頻在傳輸過程中的延時問題,聲網在技術打磨的過程中發現在實時合唱場景中延時并不是越低越好,一味的追求更低的延時,可能會“犧牲”音質等其他環節的質量。在聲網看來,實時合唱的延時達到50ms是完美值,但想要實現50ms需要攻克這幾個技術難點:
1、音頻在采集端、播放端的延時:
設備端上的延時包括采集端的采集、前處理、編碼,播放端的接收、解碼、後處理過程産生的延時,以及兩端在編碼後和解碼前産生端網絡延時。
端上的延時主要與硬件性能、采用的編解碼算法、音視頻數據量相關,設備端上的延時可達到 30~200ms,甚至更高。
2、網絡傳輸的延時:
在實時合唱的場景中,要解決網絡不佳、網絡抖動,需要在采集設備端、服務器、播放端增設緩沖策略。一旦觸發緩沖策略就會産生延時。如果卡頓情況多,延時會慢慢積累。要解決卡頓、積累延時,就需要優化整個網絡狀況。
聲網社交泛娛樂産品負責人王奇表示,“50ms端到端延時是我們一直在追求的目标,而目前聲網的實時合唱解決方案已經可以實現64ms端到端延時,背後的核心是聲網對音頻在設備端的延時、弱網傳輸、音頻引擎消耗的延時等一系列技術難點的優化,在實時合唱場景中,64ms延時已經無限接近50ms的最佳理想狀态,在這樣的延時情況下,用戶的實時合唱體驗幾乎從線下‘無感知’的搬到線上,場景體驗實現了高可用性,讓用戶真正能實現高穩定性、高音質、超低延時的實時合唱體驗。”
高音質歌唱體驗 實時美聲
在實時合唱中,聲網的解決方案還能提供高音質的歌唱體驗。聲網通過業内領先的語音引擎,實現從低比特率的窄帶語音擴展到高質量的立體聲音樂,并支持從8kHz(窄帶)到?48kHz?(全頻帶)采樣,聲網還擁有業界領先的 3A 算法,在不損傷音質的情況下有效消除各類噪聲。
此外,聲網Agora 首創了實時美聲功能。在原有低延時、高音質的基礎上,針對歌唱場景采用鍊路式多模組聯合算法框架,對人聲的音調、音色、韻律、節奏、空間、氛圍甚至藝術類型等不同維度進行調整,使歌聲更動聽、更契合伴奏,同時又能保留歌手聲音原有的特點。
支持多人實時合唱:
在單通合唱的方案中隻能支持兩個人,而聲網的實時合唱解決方案中每一個合唱端相互獨立,互不影響,合唱人數可支持兩人以上。同時若是在合唱過程中其中一個端出現問題,也不會影響到其他合唱端和觀衆端的體驗與效果。
伴奏精準同步:
為了實現最好實時合唱的效果,讓各端可以在各自BGM的伴奏下一同歌唱。我們在主唱發起播放BGM請求後,會讓主播端等待一個與合唱端之間的延時,以此實現各方伴奏的精準同步。
50ms超低延時耳返優化
不管是直播唱歌還是在線K歌,低延時的耳返功能對于唱歌體驗都有着很關鍵的作用,可幫助用戶通過耳機實時聽到麥克風采集到的聲音和播放的伴奏,來判斷自己的聲音是不是走音,這個對延時要求特别高。
對此,Agora SDK提供統一接口的低延時K歌耳返功能,通過與手機廠商的深度技術合作,可為K歌、直播類App提供适配不同手機品牌、不同手機機型的耳返應用,我們将傳統耳返100-300毫秒的延時降低至50ms以内,結合實時合唱整體解決方案,實現超低延時、超低噪聲、極緻音效的耳返體驗,全面提升K歌的體驗。
歌詞同步 音浪頻譜
歌詞同步可以實現音頻與歌詞在播放端同步展示,并且音頻與歌詞逐字對齊,企業開發者無需在進行額外同步處理。而音浪頻譜可以幫助歌唱者及時調整自己的音調,系統也能根據音浪頻譜的完成度對歌唱者進行打分。專業的在線K歌應用自身已經具備成熟的歌詞同步、音浪頻譜等功能,但對于想在已有應用中加入在線KTV功能的創業公司或者開發者而言,聲網的實時合唱解決方案自帶歌詞同步、音浪頻譜等功能,将幫助開發者節省開發成本、保證體驗。
實時合唱覆蓋線上線下 為企業帶來多重價值
在線社交實時合唱,用戶、營收雙增長:1、用戶拉新、提升活躍度與留存:實時合唱作為最新的在線KTV玩法,無疑可以作為産品新玩法賣點,帶來更多想要體驗的新用戶。同時,實時合唱的創新玩法解決了傳統錄制合唱、單通道合唱的痛點,也會激發很多喜歡合唱的老用戶積極參與,提升用戶活躍度與留存率。
2、帶來更多營收空間:在線K歌與社交平台也可以基于實時合唱的功能,探索出更多商業價值,提升營收空間。
智能電視K歌合唱,娛樂互動升級:經過與電視廠商的技術打磨,聲網的實時合唱解決方
案還支持電視端,用戶可在家中通過智能電視大屏與好友進行線上的實時合唱。對于電視廠商而言,實時合唱的加入也讓智能電視的娛樂互動玩法更豐富。
線下KTV異地合唱,打破空間限制:實時合唱還可以助力線下傳統KTV或商場迷你KTV的互通聯動,讓多地的好友可以在線下不同地點一起K歌合唱,提升消費者K歌娛樂體驗,推動線下KTV娛樂創新發展。
“咪哒”技術負責人表示:可落地的實時合唱技術方案此前在行業一直處于空白,聲網憑借深厚的技術底蘊以及對創新場景的洞察力,與咪哒一起打磨出了行業首個完整的實時合唱解決方案,低失真,超低延時的技術保障為用戶帶來最佳的實時音頻體驗,咪哒在全國線下的迷你KTV中即将率先上線實時合唱的新玩法,實時合唱未來将給線上、線下K歌行業帶來新的活力。
目前聲網實時合唱iOS端Demo已率先上線,如果您想進一步體驗聲網實時合唱Demo,可通過聲網的微信公衆号找到這篇文章,并點擊文章中的“閱讀原文”留下您的信息,我們将提供實時合唱Demo的下載地址。
在本文中我們分析了實時合唱面臨的技術難點,并介紹了聲網實時合唱解決方案的架構以及核心技術優勢,如果您想進一步了解聲網是如何優化音頻傳輸過程中的延時、編解碼、丢包、抖動等一系列技術難點,可查閱聲網微信公衆号此前發布的音頻技術系列文章。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!