tft每日頭條

 > 科技

 > 林志玲郭德綱

林志玲郭德綱

科技 更新时间:2024-12-13 00:32:26

林志玲郭德綱(地圖軟件是怎麼做到讓林志玲)1

提問:@Megan

今日錦囊答主:科大訊飛研究院合成組

語音合成也叫文語轉換(Text-To-Speech),簡稱TTS,簡單理解就是“讓機器說人話”。合成技術的效果有四個考量維度:表現力、音質、複雜度和自然度。目前的技術演進,自然度和音質都有了明顯提升,各大技術提供商更多的是在研究如何提高合成音的表現力,特别是語氣和情感方面,很典型的案例産品的就是高德用林志玲和郭德綱的聲音播報路況。

那麼一條音頻是如何合成出來的?這個過程包括了兩個步驟:首先是制作語音庫,然後是使用語音庫将文本變成音頻的過程。

制作語料庫需要錄制用戶數小時的幹聲,對錄音開展數據标注,再進行特征訓練和技術優化,才能使韻律、音色、音質及自然度更加貼近,讓合成的聲音更加自然、流暢。以高德地圖中林志玲的導航聲音為例,在開始合成之前,首先是請志玲姐姐錄了一些音頻。這些音頻不是随意說說就可以的,科大訊飛研究團隊為林志玲做了特别設計——除了設計均衡的發音組合、長短語句外,還專門為體現她的“娃娃音”增添了語氣詞,并結合導航應用做了偏向設計。所以能用最短的語料做出最好的效果。

之後就是把文本合成成語音。輸入文本後,首先需要按照詞典規則對文本進行語言處理,比如模拟人對自然語言的理解過程,包括文本規整、詞的切分、語法語義分析,使計算機對輸入的文本能完全理解,并給出後續步驟所需要的各種發音提示。然後是韻律處理,就是為合成語音規劃出音段特征,如音高、音長和音強等,使合成語音能正确表達語意,聽起來更加自然。最後根據前兩部分處理結果的要求輸出語音,即合成語音。

未來不僅僅是明星,身邊的一切聲音理論上皆可合成。

而語音合成技術的應用範圍也很廣。汽車導航内嵌的語音系統、智能手機語音助手、讀書軟件等等,這些應用的實現都離不開語音合成,時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。

1分鐘知識錦囊是36氪的日更問答新欄目,旨在每天以一分鐘為限,快問快答一個重要的商業問題。今天我們解答的是人工智能相關的問題。如果你對近期的商業世界還有什麼疑問,歡迎在評論區給我們留言,錦囊負責找高手為你解答

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved