提問:@Megan
今日錦囊答主:科大訊飛研究院合成組
語音合成也叫文語轉換(Text-To-Speech),簡稱TTS,簡單理解就是“讓機器說人話”。合成技術的效果有四個考量維度:表現力、音質、複雜度和自然度。目前的技術演進,自然度和音質都有了明顯提升,各大技術提供商更多的是在研究如何提高合成音的表現力,特别是語氣和情感方面,很典型的案例産品的就是高德用林志玲和郭德綱的聲音播報路況。
那麼一條音頻是如何合成出來的?這個過程包括了兩個步驟:首先是制作語音庫,然後是使用語音庫将文本變成音頻的過程。
制作語料庫需要錄制用戶數小時的幹聲,對錄音開展數據标注,再進行特征訓練和技術優化,才能使韻律、音色、音質及自然度更加貼近,讓合成的聲音更加自然、流暢。以高德地圖中林志玲的導航聲音為例,在開始合成之前,首先是請志玲姐姐錄了一些音頻。這些音頻不是随意說說就可以的,科大訊飛研究團隊為林志玲做了特别設計——除了設計均衡的發音組合、長短語句外,還專門為體現她的“娃娃音”增添了語氣詞,并結合導航應用做了偏向設計。所以能用最短的語料做出最好的效果。
之後就是把文本合成成語音。輸入文本後,首先需要按照詞典規則對文本進行語言處理,比如模拟人對自然語言的理解過程,包括文本規整、詞的切分、語法語義分析,使計算機對輸入的文本能完全理解,并給出後續步驟所需要的各種發音提示。然後是韻律處理,就是為合成語音規劃出音段特征,如音高、音長和音強等,使合成語音能正确表達語意,聽起來更加自然。最後根據前兩部分處理結果的要求輸出語音,即合成語音。
未來不僅僅是明星,身邊的一切聲音理論上皆可合成。
而語音合成技術的應用範圍也很廣。汽車導航内嵌的語音系統、智能手機語音助手、讀書軟件等等,這些應用的實現都離不開語音合成,時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!