tft每日頭條

 > 生活

 > 志玲姐姐導航語

志玲姐姐導航語

生活 更新时间:2025-01-24 17:46:04

志玲姐姐導航語(志玲姐姐的導航聲音是如何産生的)1

開車走在路上,聽着導航裡志玲姐姐給你帶路,是件非常愉快的事。這麼甜美的智能語音導航是如何産生的呢?今天我們就聊一聊背後的語音合成(Speech Synthesis)技術。

讓機器像人一樣開口說話是人們很早就有的夢想,但真正的研究還是在Leonhard Euler在1750年左右建立了聲音的物理學原理之後。1769年,Wolfgang von Kempelen,發明了一個模拟人類發音器官的發音器。如圖1所示,這個發音器包括一個風箱來模拟人的聲帶,一個共鳴腔來模拟人的口唇。這種用機械模拟人發音的方法能産生和人類似的發音,是語音合成的初期探索[1]。

圖1:保存于德國Saarland大學的Kempelen發聲器複制品。

志玲姐姐導航語(志玲姐姐的導航聲音是如何産生的)2

1930年,Bell實驗室發明了聲碼器(Vocoder),将人的聲音分解成聲帶振動和口唇調制兩部分,改變口唇部分的調制函數後,就可以合成出不同的聲音。這種語音合成方式物理學基礎明确,系統簡單,在80年代很受歡迎。著名物理學家霍金的輪椅就是采用這種方式發聲的。這種合成方式的缺點在于發音的機器味道很濃,流暢度也不夠。用這種方法是無法生成志玲姐姐的聲音的。

90年代,人們采用更粗暴的方式來合成聲音。研究者讓播音員錄制一個大規模聲音庫,然後從聲音庫中選出聲音片段來,拼接成所要的句子。比如要合成“我想回家”,就在聲音庫裡找到“我”、“想”、“回”、“家”這四個字對應的發音,再把他們拼成一句話。假如這個聲音庫是志玲姐姐錄的,那我們就可以合成她的聲音了。這種拼接法裡最重要的事是選擇合适的發音片段,因為同一個音節在不同環境下的真正發音是不太一樣的,要選出最合适的發音片段并不容易。同時,為了拼出的聲音更自然,質量更高,聲音庫自然是越大越好,因此需要大量錄制工作。

圖2:拼接法從數據庫中選擇聲音片段進行合成 [2]

志玲姐姐導航語(志玲姐姐的導航聲音是如何産生的)3

拼接法的一個缺點在于聲音不容易改變。比如,我想換個人說話,就需要重新錄制數據,如果換個情緒說話,還需要錄制這個人在特定情緒下的聲音,工作量太大了。語音之家提出統計模型方法來解決這個問題。和拼接法不同,統計模型方法對每個發音構造一個統計模型,這樣隻要調整模型參數就可以得到新的發音,而這種參數調整隻需要很少的數據。如果采用這種方法,隻要請志玲姐姐讀個幾分鐘就可以合成她的聲音了。

圖3:統計模型法将每個發音表示成一個概率模型

志玲姐姐導航語(志玲姐姐的導航聲音是如何産生的)4

近年來,智能語音成為主流。和統計模型方法相比,深度神經網絡對發音過程有更精細的刻畫,因此可以合成非常自然逼真的聲音。圖4是Google發布的一個基于深度神經網絡的合成模型,該模型将需要合成的句子通過一個序列到序列模型直接生成發音。因為智能語音在發音時對前後發音的相關性有細緻的建模,這一模型可以生成很自然的發音。特别是,如果給這個模型輸入一個表示發音人的向量,就可以随時随地改變發音的說話人特性了。如果用這個模型,志玲姐姐也許隻要錄幾句話,就能幫我們導航了。不僅如此,語音合成基于深度學習,人們還可以控制發音的口音、情緒、語速、音調等各種參數,甚至造出虛拟人的聲音。可以說,人們長久以來讓機器開口說話的理想已經成為現實。

圖4:Google發布的基于深度學習的Tacotron語音合成系統[3]

志玲姐姐導航語(志玲姐姐的導航聲音是如何産生的)5

語音之家助力AI語音開發者的社區

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved