tft每日頭條

 > 生活

 > 騰訊音樂包含哪些歌種

騰訊音樂包含哪些歌種

生活 更新时间:2024-07-30 17:12:35

導讀:當聽到我們心儀卻不知道名字的歌曲時,我們往往打開手機的聽歌識曲功能一鍵識别,但往往翻唱歌曲的識别情況并不盡人意。近些年,我們卻明顯可以感覺到騰訊音樂的識别越來越準。這背後究竟隐藏着怎麼樣的技術革新?今天,和筆者一起聆聽騰訊音樂數據科學家講解新一代的歌曲識别技術。

全文将會圍繞下面幾點展開:

  • 下一代歌曲識别技術簡介
  • 翻唱識别現有技術調研
  • 線上翻唱識别
  • 下一代技術識别技術展望

01

下一代歌曲識曲技術簡介

1. 上一代技術的局限

上一代的聽歌識曲主要采用Landmark音頻指紋技術。Landmark音頻指紋的核心在于過濾出語譜圖中的局部最大值點形成“星座圖”。在識曲的過程中,新生成的“星座圖”會和預先構建好的指紋庫做匹配,完成識曲。如同“星座”的匹配過程,指紋的匹配會判斷新生成的指紋是否和指紋庫中預存的完全一緻,即嚴格的序列匹配。因此,雖然Landmark對原曲的識别表現出較好的效果,但對變調、翻唱、重混以及重采樣等情況都束手無策。

2. 下一代技術的目标

Landmark音頻指紋技術是由Shazam提出的一套基于信号處理的成熟技術方案,目前已經大規模地落地,但其對音樂幾乎沒有理解能力。下一代歌曲識别技術想要實現的則是除了錄音之外,對歌、曲、作者等有着多項識别能力。最終能和人類的音樂因素能力相媲美。為了達到這一效果,會側重使用機器學習、涵蓋多項技術。

--

02

翻唱識别現有技術調研

1. 翻唱的類型以及音樂特點

學術界為了定義翻唱類型,需要在很多維度上和原唱做對比,看其發生的變化。如純器樂版,主要是在音色、歌詞、嗓音這些維度有一些變化,而速度、節奏、結構、調性、和聲則保持不變。更多的示例如下表所示。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)1

目前騰訊音樂已經解決了大部分的翻唱類型。

2. 翻唱識别技術發展路徑

最早的翻唱識别技術可以追溯到2005年,國立台北大學通過提取主旋律,利用DTW算法識别翻唱。2006年,Librosa團隊提出用Chroma特征做互相關。2009年,UPF團隊深入分析了CQT、PCP、HPCP等特征,最終認為HPCP特征有較強的表征能力并提出了OTI變調的解決方法。2012年,Labrosa團隊建立了SHS(Second Hand Songs)數據集,并提出了另一個解決變調的方法——2D-FT。2016年,Grancenote提出基于CQT和Hamming Embedding的方法。2017年以後信号處理方法開始式微,主流開始轉入DNN方案。韓國的一個團隊在2017年采用特征的相似度矩陣做分類。同年,北大團隊提出度量學習方案。2019年,該北大團隊進一步提出TPP-Net/CQT-Net的技術方案。目前,騰訊音樂天琴實驗室LyraC-Net在各項指标上達到了業界最優,相關文章被Interspeech 2022收錄。

--

03

線上翻唱識别

1. 真實的業務需求

學術界給出的大部分方案是針對整首歌的聚類方案,但是該方案解決不了業務上實際面臨的問題。首先,真實的業務通常是針對片段進行檢索,且這些片段存在噪聲或有失真的情況。其次,在真實的場景中需要在海量的數據中實時返回識别結果,而非學術界給出的基于少量數據的離線方案。最後,在實際使用時需要返回歌詞,即需要時間戳以同步歌詞信息。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)2

為了滿足真實的業務需求,騰訊音樂自研了技術解決方案,我們命名為Lyra-CoverNet。将歌曲切片提取Embedding,随後進行序列匹配,從而識别翻唱曲目。

2. Embedding提取算法

将翻唱數據切片得到數據集,提取HPCP作為音頻特征,經過Inception-Resnet-V2的深度學習模型後得到Embedding。在訓練的過程中,損失函數采用Triplet Loss。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)3

3. 序列檢索邏輯

首先,需要使用上述的Embedding提取算法對請求音頻片段,每隔T提取一個Embedding,生成Embedding序列。接着,每個Embedding序列中的Embedding依次通過向量搜索引擎得到曲庫中相似embedding信息(包含歌曲ID,offset)。最後,根據請求embedding序 列 與 命 中 到 的embedding的時間偏移繪制直方圖,獲取直方圖中頻數最大的值作為初步結果,若滿足一定阈值的條件則作為最終的匹配結果。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)4

4. 自動化數據标注與效果

需要注意的是,在訓練的過程中,數據需要切成片段。而同一首歌的不同翻唱版本需要有相同的切割點,即片段之間需要對齊。目前,騰訊音樂給出的方案是基于全文件翻唱匹配技術生成一個同一首歌不同翻唱版本的歌曲組,然後基于現有的歌詞時間戳技術進行對齊。之後,利用對齊條件對已有的對齊片段做篩選,留下符合條件的片段。

利用自動化數據标注之後,生成了數萬首歌曲和數百萬對翻唱片段。将人工标注數據擴展約至10倍,大大提升了标注效率。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)5

相對于人工标注的數十萬對翻唱片段,可以明顯地看出,自動化标注的數百萬對翻唱片段讓模型在召回和精度上均有大幅的提升。

5. 上線情況

雖然翻唱識别能夠較好地處理變調和翻唱的問題,但在低信噪比的環境中表現不佳,而Landmark音頻指紋依舊在該環境下勝任。因此Landmark音頻指紋算法搭建的系統依舊需要保留。

為了更好地服務線上業務,騰訊音樂将兩種識别模式串聯起來,在原始Landmark算法搭建的系統無法識别時,會走翻唱識别系統。另外,鑒于目前翻唱識别的精度還不是特别高,翻唱識别在結果展示時會加上“小Q沒有識别出來,可能是這個結果”文案。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)6

--

04

下一代歌曲識别技術展望

1. 翻唱識别技術展望

最初的翻唱識别技術從主旋律開始着手,因為主旋律是其中翻唱識别中唯一不變的一個應用特性。接着,Labrosa團隊提出Chroma。其次,UPF團隊提出HPCP。然後,很多團隊開始采用特征融合的技術手段。等到神經網絡開始出現,又有各種各樣的Embedding方案,以及騰訊音樂提出的Embedding序列的方法。最終,技術可能會回歸主旋律提取。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)7

以前的主旋律提取效果不好,主要是因為算法還不夠成熟。但是經過十幾年的發展,深度學習可能會給主旋律提取引入新的活力。

2. 歌曲識别技術展望

歌曲識别中的技術繁多。日後有可能類似于物理四大基礎力學的統一,各種歌曲識别技術也會統一。比如,針對翻唱識别技術,進一步提升訓練數據量或更改網絡結構,使該技術在低信噪比的環境下有較好的表現,這樣便可取代目前翻唱識别和Landmark音頻指紋技術串聯的系統。

目前,騰訊音樂已經在做的翻唱識别與歌詞識别(即歌聲ASR)的融合。結果顯示,加入歌詞聚類的翻唱識别效果比常見的翻唱識别技術要更好,并且有些情況下會好很多。另外,騰訊音樂在歌詞識别和哼唱識别做了融合,在哼唱識别中再引入用歌詞檢索,準确度也有很大幅度的提升。

3. 業務展望

目前,騰訊音樂已經做了音頻指紋(聽歌識曲、指紋服務)、主旋律匹配(哼唱識别)、歌曲相似(翻唱識别、音色識别)、歌聲ASR(歌詞搜索)、音樂歌詞識别(歌詞生成),并将整個服務做了打包。最終這些服務将服務于歌曲的整個生命周期當中,從音樂創作,到音樂入庫,到曲庫管理,到UGC内容管理,到音樂播放,到最終的音樂收聽。在技術的支撐下讓業務開花結果。

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)8

--

05

總結

本次分享從音頻指紋技術的局限性開始引入并重點介紹了翻唱識曲的發展曆程和為了滿足真實的業務需求開發出的線上場景翻唱識别算法。在本文的最後,對未來聽歌識曲的融合趨勢進行了展望。

--

06

精彩問答

Q:如何處理翻唱識别中的海量檢索?有使用粗召回然後精排嗎?

A:之前有介紹,粗召回會使用向量檢索的一個框架,建構索引,檢索時召回關聯性比較強的向量。在召回之後,會統計時間偏移的制直方圖進行精篩。

Q:翻唱識别有使用數據增強嗎?

A:有,會在數據中引入噪音和SpecAugment,以及對原始音頻做變調等操作。


今天的分享就到這裡,謝謝大家。

閱讀更多技術幹貨文章、下載講師PPT,請關注微信公衆号“DataFunTalk”。


分享嘉賓:Lester 騰訊音樂 音頻算法研究員

編輯整理:楊遠卓 維沃移動通信

出品平台:DataFunTalk


分享嘉賓:

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)9


DataFun7月30日直播預告:

騰訊音樂包含哪些歌種(騰訊音樂的新一代歌曲識别技術)10


關于我們:

DataFun:專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100 線下和100 線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公衆号 DataFunTalk 累計生産原創文章700 ,百萬 閱讀,14萬 精準粉絲。


歡迎轉載分享評論,轉載請私信。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved