你知道嗎?在我國患有言語障礙及伴有言語障礙的人數超過3000萬人次,他們很少能說出一句完整的話,隻能發出個别字詞的音節,很難與人進行正常的交流。為此,小米做了什麼呢?
小米AI實驗室将自研的聲音适配算法和超級拟人語音合成技術應用于無障礙領域,為一位言語障礙用戶“阿卷”開發了獨一無二的定制聲音,取代了以往的普通電子機械音,讓阿卷可以用“自己的聲音”與外界交流。點擊鍊接跳轉觀看:語音合成聲音定制技術,為“愛”發聲
這是小米AI實驗室“聲音配型捐贈”項目預研的一部分,體現了小米技術向善的承諾,用強大的技術能力推動“讓世界上每個人都能享受科技帶來的美好生活”的使命。聲音捐贈志願者招募中, 點擊文末“聲音捐贈”即可參與。
這個技術是如何實現的呢?請繼續往下看~
01
Q:為什麼想做針對言語障礙人群的聲音定制?A:近年來,小米已經在手機上開發了多種無障礙功能,例如小米聞聲、AI通話分别實現了面對面場景與遠距離通話場景下的文字和語音互轉,為聽力及言語障礙人士提供了極大的便利。而我們的無障礙支持也已經從2010年的視力障礙者,擴展到了聽說和部分肢體障礙者。
不過,我們發現,大部分的無障礙問題不是技術做不到,而是技術沒想到,因為在技術快速叠代和進步的時候,總是先考慮生活中常見的或開發者熟悉的場景,而忽略了自己不熟悉的群體,比如老人、兒童、女性和少數群體的需求。所以在小米我們其實是希望用數字包容這個議題,能夠幫我們的産品研發同學更好地理解“各種各樣不同的需求和感受”,這樣才能真正縮小因為差序格局帶來的數字鴻溝。
說到“自己的聲音”這個需求,其實是在與語障用戶的交流中發現的。小米聞聲和AI通話推出後,大家有時候在群裡會讨論接電話的時候,對方一聽是機器人的聲音,就默認不是本人接聽而是留言,就挂了。其實隻是用戶有言語障礙,打字慢,這就很耽誤事。所以大家對“不機械的聲音”有需求。
AI通話産品團隊了解到以後,就接入了“自定義語音”,就是用戶自己訓練一個模型,用和自己聲音相似度很高的人工智能語音去接電話。但這個隻有言語功能健全的用戶能做到。所以很多用戶也都覺得如果聲音能多一些選擇就好了,可以挑一個自己喜歡的,但他們也會表達一些遺憾,“用的還是别人的聲音”。其實用戶更想要的是“别人一聽就是我”的那種聲音,是想要有辨識度的,可以和自己有關聯綁定的聲音。後來去找語音組的老師溝通,了解到現有的技術裡面其實是有可能解決這個問題的,讨論完大緻路線,技術團隊的老師們覺得這事值得嘗試。
02
Q:言語障礙者“阿卷”擁有自己的聲音,技術層面包括哪些部分?A:項目團隊采用超級拟人技術訓練AI,讓這個新的聲音逐步擁有自然的節奏、語調等,真實地體現人的情緒與語氣,以最終完成個性化聲音的定制。
從基本上來說,這是一個語音合成的任務,也叫做文語轉換(Text To Speech,TTS),是人機對話的一部分,讓機器能夠說話。如果希望用特定的音色來講話,就涉及到聲音定制,一般來說會需要在專業的錄音棚采集十小時以上的錄音數據才能獲得較好的效果。
如果能夠獲取的用戶數據量有限,這就涉及到多音色的模型預訓練以及遷移學習任務。多音色的模型預訓練可以使用大量其他人的錄音來學習一個共享的神經網絡,這樣的模型“見多識廣”。一方面是指見過很多不同的文本,使得将來在合成任意輸入文本的時候都比較穩定,較少出錯。另一方面則是指見過很多不同的音色,将來在遷移到目标音色的時候就比較容易學得很像。遷移學習則是小數據訓練的法寶,當然我們後來為了進一步改進模型的質量還對采集的數據做了數據增廣操作。
不僅如此,言語障礙者的聲音定制還需要聲紋技術的支持。因為他們的發音能力受限,不僅能夠覆蓋的音素(發音的基本單元)比較少,而且即使能采集到的音素,比如a和i,也往往不同于正常人。如果直接用來訓練,則合成出來的聲音很難聽懂,韻律、語氣也會不那麼自然。所以我們需要通過言語障礙者有限的、不自然的錄音從正常的捐獻人音色庫中匹配最接近的音色,用這個音色的錄音來作為補充。這個匹配的算法,就需要聲紋提取技術,然後計算相似度。除了這些主要的技術框架,面對一些挑戰我們還靈活運用了很多其他相關技術,會在後面涉及的地方提到。
03
Q:超級拟人語音合成技術是什麼?A:簡單來講,超級拟人技術就是讓人工合成的聲音在語調、斷句、語速變化等方面都和真人無異,從而擺脫電子機械音的生硬感,讓聲音更加自然。目前,很多搭載小愛同學的智能設備都已經應用了這項技術,而此次聲音捐贈項目的成功,讓人們看到了超級拟人技術在無障礙領域也可以有更廣泛的應用,帶來更好的用戶體驗。
04
Q:什麼是聲音适配算法?它能夠解決什麼?A:這裡的聲音适配算法指的是計算兩端音頻中音色相似度的算法。它需要先從音頻提取聲紋信息,然後對不同聲紋衡量它們的相似度,為言語障礙人群提供定制語音合成服務。
而這相較于為普通人提供語音服務難度會更高,因為他們通常不能提供足夠的數量的錄音和覆蓋模型訓練所需的全部基礎發音和各種發音組合。所以我們需要聲音适配算法從捐獻者中挑選最接近的作為訓練數據的補充。具體實施時,我們先盡力收集言語障礙人群能夠發出的有限類型語音,并對收集的錄音樣本進行聲紋特征提取,然後從捐獻者的音色庫中尋找與該用戶最為相似的音色。找到之後,通過人工确認就可以将匹配到的捐獻者音頻用于後續的語音合成模型訓練,從而得到穩定自然流暢的合成語音。
05
Q:構成語音合成算法的重要部分?A:語音合成裝置可以包括:獲取模塊,用于獲取語障用戶輸入的文本數據;合成模塊,用于将所述文本數據輸入至語音合成模型,得到合成語音數據。
選擇模塊是用于從多個候選語音數據中選擇一個作為所述目标語音數據。将所述語障用戶的語音數據和所述多個候選語音數據輸入聲紋識别模型,得到所述多個候選語音數據與所述語障用戶的語音數據的音色相似度。根據所述音色相似度,從所述多個候選語音數據中确定一個所述目标語音數據,對語障用戶的語音數據進行分析,得到第一語音特征。對所述多個候選語音數據進行分析,得到第二語音特征;從所述多個候選語音數據中選擇所述第二語音特征與所述第一語音特征輸入所述聲紋識别模型,從所述語障用戶的語音數據和所述多個候選語音數據輸入聲紋識别模型,得到所述多個候選語音數據與所述語障用戶的語音數據的音色相似度。
接着進行語音合成,合成模型包括:文本分析模塊,文本編碼模塊、音素過濾模塊、音素分類模塊、時長預測模塊、注意力機制模塊以及聲學解碼模塊組成的聲學模型,和聲碼器模型。各個模塊均是不同模型結構的神經網絡,具有不同的作用。
同時,我們通過個性化自動叠代系統,提供1v1定制調音服務:用戶模型訓練好後,通過定期問卷的形式,根據用戶的反饋叠代模型,反饋問卷選項會傳給定制調音系統,根據選項自動調整模型,更新音色,使其更貼近用戶想要的音色。
06
Q:我們的技術優勢有哪些?A:首先,為言語障礙人士去匹配合适的聲音捐獻人就很有挑戰性。我們可以搜集到的錄音不僅有限,語障人士能提供的音節類型也常常隻有幾個單音,而且發音還不太準确。我們在聲紋提取算法基礎上需要做一些映射才能将他們的發音轉換到正常的聲學空間,與正常的捐獻人進行匹配。同時,為了避免侵犯捐獻人的隐私,還需要對每位捐獻人的聲紋做一定的變聲處理。
其次,在定制語音合成模型的流程裡,我們對捐獻人提供的錄音數據做了切分、拼接、語速調整等操作進行數據增廣,已解決訓練數據量不足的問題;同時,我們使用大量不同發音人的數據進行預訓練得到一個大規模參數的基礎模型,充分覆蓋各種文本各種風格的語音表達。在此基礎上用目标數據進行遷移學習就能既逼近目标音色又能在任意文本上都保持很高的自然度;另外,我們還對音色遷移後的模型進行了蒸餾,壓縮參數量以保證引擎實時推理的效率。
整體上,我們将很多語音技術的基礎能力串聯起來,并對大部分環節都做出了創新性的改造,才最終能為語障人士定制出他們滿意的語音合成效果。
07
Q:目前技術的應用場景有哪些?A:有很多應用場景,比如AI電話助理:當設備接收到用戶B的語音信息後,AI電話助理對用戶B的語音進行語音識别,并将識别結果轉化成語音文字呈現;言語障礙用戶A看到用戶B的語音文本後,将自己想要表達的内容的文本數據,輸入到文本輸入區之後點擊發送。該文本數據可以是AI電話助理預先根據用戶B的語音文本智能生成的文本答複語,也可以是用戶A自己通過輸入鍵盤編輯的文本數據。AI電話助理将輸入文本數據送入到用戶預先定制的語音合成模型中,由語音合成模型将文字數據轉成合成語音數據。從而使得言語障礙用戶A能将所表達的内容用自己定制的音色傳達給對方(用戶B),進行無障礙的溝通。
另外,有聲博主可以通過這項技術制作有聲素材,隻需要輸入台詞文本就可以自動快速生成大量的音頻,經過剪輯後期處理後就可以發布。
08
Q:在研發過程中有遇到過什麼樣的困難?是怎麼解決的?A:在與捐獻人的音色庫匹配成功後,如果直接用于模型訓練,合成出來的音色可能會侵犯捐獻人的隐私。發現這一風險後,我們積極思考解決辦法,不僅對捐獻人的聲紋做了一定的變聲處理,而且通過聲紋驗證模型來檢查合成音頻與原始捐獻人的錄音之間是否存在足夠大的差異。當這個差異大到我們的聲紋驗證模型認為是來自不同人時,我們的變成處理就達到了要求。最終該方案既保證了效果讓用戶滿意,又從技術的角度規避了風險讓捐獻人滿意。
訓練數據的采集一般是用戶自己完成,采音設備和環境都達不到錄音棚的專業水平,所以剛開始合成出來的音頻會有較多的噪音,用戶反饋不夠幹淨。為了提高合成音頻的清晰度,一方面我們對原始數據先做降噪處理,然後在聲學模型網絡中設計了環境噪音的嵌入編碼去吸收訓練數據中的噪音,同時我們也采用了最新的基于神經網絡的通用聲碼器。因為通用聲碼器不依賴于說話人的音色,所以可以用大量音質更高的其他人的音頻來進行訓練。三管齊下,最後交付的模型質量終于獲得用戶好評。
09
Q:技術在科技向善領域的展望A:現在的“小米聞聲”技術,是為了配合小米的無障礙體系,小米利用語音技術,可以讓小米設備“看到”其他人說話,也可以幫他們“看見”周圍環境中的聲音,例如警報聲,敲門聲等,它賦予聽障用戶同樣的聲音感知權利。未來,我們要給“小米聞聲”加上說話人身份和方向區分:設備可以感知周圍不同說話人的切換,以及周圍說話人的方向。這樣聽障人群盯着屏幕看語音轉寫的同事,就不會困惑一句話是誰說的。這裡面用的兩個技術,分别是說話人分離(Speaker Diarization)和遠場拾音。我們也可以用遠場拾音技術,按照助聽輔聽設備指定的注意力方向,定向拾取聲音,提升聽障人群在嘈雜環境中的語音感知可懂度。
除了“小米聞聲” 技術,我們使用“聆聽”技術為構音困難用戶提供了個性化的語音識别,讓他們也可以通過自己的聲音和設備溝通;使用“讀屏”技術為視障人群“看到”屏幕上的内容;未來,我們将利用聲音定制技術,除了為已經失去言語能力的群體捐獻聲音,還可以為即将失去言語能力的用戶保留聲音,比如說請用戶在即将進行發聲相關器官手術前錄制聲音,用作以後聲音重現。用口語評測技術,可以輔助言語康複者自行評測自己每個聲韻母、詞、短語和句子的發音是否準确,并給出建議。從而節約言語訓練師的資源。利用相對測聽技術,可以提前篩查聽力問題,為用戶鍊接助聽輔聽設備的驗配。
聲音配型捐贈項目将多種頂尖算法與小米先進的語音技術相結合,保證了合成聲音的專屬性、安全性和高自然度,為言語障礙者的聲音定制合成開創了新思路,讓世界“聽見”每個人的聲音!未來,小米将繼續堅持創新,通過頂尖技術為無障礙賦能,努力幫助每一名殘障用戶獲得更加自由、更加平等、更加有尊嚴的生活,實現個人的更好發展。
聲音捐贈
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!