【嘉勤點評】科大訊飛發明的車内含噪語音數據生成方案,隻需結合成熟的語音合成技術就可以實現人聲素材資源的拓展,無需如現有技術重新反複進行實地錄制數據,實現了對預先創建的語音素材資源的複用。解決了當前實車實景人工錄制方式費時、費力、高成本等弊端,并有效提升了車用交互語音數據樣本的制作效率。
集微網消息,随着人工智能的興起,車載、教育、醫療都滲透了人工智能技術。其中,智能語音作為人機交互的重要手段被廣泛應用于各個領域。
在車載場景下,由于其不同于家居、醫療、客服等場景,該環境中的噪音更具多樣性、不穩定性等特點,且車載場景涉及人身安全因素,對語音識别等效果要求較高。因而在優化語音識别等語音處理效果時,需要大量含噪聲及不含噪聲的測試語音音頻數據作為支撐。
其中,車内含噪語音數據集的構造往往需要實車在不同場地、環境條件下進行反複、多次實地采錄。這種條件的制作要求相對較高,也導緻整體成本也較高。此外,目前現有的車内含噪語音數據的制作方式通常隻适用于單次目标效果的評估,也就是說經過反複多次在某一個場景中采集車内含噪語音數據完畢後,該數據集很難在更多的場景中重複使用。
因此,如果期望采錄的車内含噪語音數據能夠覆蓋全場景,則必然要耗費大量的時間和人力從海量車内含噪語音數據中進行甄别、挑選、歸類等繁瑣工作。為了達到具有上述優良效果的語音數據集,科大訊飛在2021年6月22日申請了一項名為“車内含噪語音數據生成方法、裝置以及設備”的發明專利(申請号:202110694011.4),申請人為科大訊飛股份有限公司。
根據該專利目前公開的相關資料,讓我們一起來看看這項技術方案吧。
如上圖,為該專利中發明的車内含噪語音數據生成方法的流程示意圖,這些含噪語音數據可以幫助開發人員實現更加優秀的用戶語音識别算法及模塊。首先,開發人員在系統中預先内置創建好的語音素材庫,該素材庫主要包含兩類音頻數據,分别為:純人聲音頻數據和實車純噪音音頻數據。這是由于車内交互的含噪語音數據主要是由主說話人聲源、環境噪聲、幹擾源構成。
主說話人聲源就是指語音處理的對象,主要用于識别、喚醒、意圖分析、指令操控等操作環節。而環境噪聲主要是指行駛時的風噪及胎噪、車外噪音、空調噪、車載播放器輸出聲音以及其他雜音等。
其次,接收并解析用戶輸入的數據需求。例如,主說話人聲源為男性、中文普通話以及50db,假設主說話人聲源能量與車噪能量比例5:3。基于這樣具體且明确的數據需求,可以直接執行後續步驟。
最後,根據解析後的數據需求,從語音素材庫中分别匹配出與用戶需求對應的純人聲音頻數據以及實車純噪音音頻數據。并将匹配到的純人聲音頻數據以及實車純噪音音頻數據進行混音處理,生成車内含噪語音數據。
如上圖,為該專利中發明的語音數據擴方法的流程示意圖,首先,從匹配出的純人聲音頻數據中提取當前人聲的語音基元。再利用語音基元以及預設的若幹個車用交互文本,合成出批量的純人聲音頻數據。最後,将合成的純人聲音頻數據逐一與匹配出的實車純噪音音頻數據進行混音處理,得到批量的車内含噪語音數據。
因此,可以發現,該專利主要的目的在于預先采集純實景車噪和純人聲聲源以構造出車用語音素材庫。該車用語音素材庫中的音頻資源用于與用戶所提需求結合,分别得到符合用戶期望的車内含噪語音數據的純人聲聲源以及純實景車噪。然後将匹配出的純人聲聲源以及純實景車噪進行通道融合,生成用戶所需的目标車内含噪語音數據。
最後,如上圖,為這種含噪語音數據生成系統的硬件裝置模塊,該系統中主要包括有:語音素材庫創建模塊1、數據需求獲取模塊2、需求匹配模塊3以及目标數據生成模塊4。
語音素材庫創建模塊可以預先創建語音素材庫;數據需求獲取模塊用于接收并解析用戶輸入的數據需求;需求匹配模塊用于根據解析後的數據需求,從語音素材庫中分别匹配出與用戶需求對應的純人聲音頻數據以及實車純噪音音頻數據;最後,目标數據生成模塊用于将匹配到的純人和實車純噪音音頻數據進行混音處理,生成車内含噪語音數據。
以上就是科大訊飛發明的車内含噪語音數據生成方案,該方案隻需結合成熟的語音合成技術就可以實現人聲素材資源的拓展,無需如現有技術重新反複進行實地錄制數據,實現了對預先創建的語音素材資源的複用。解決了當前實車實景人工錄制方式費時、費力、高成本等弊端,并有效提升了車用交互語音數據樣本的制作效率。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!