tft每日頭條

 > 圖文

 > 怎麼用嘿siri喚醒siri

怎麼用嘿siri喚醒siri

圖文 更新时间:2024-07-26 19:15:42

怎麼用嘿siri喚醒siri?人工智能技術迅猛發展,人機語音交互更加自然,搭載語音喚醒、識别技術的智能設備也越來越多語音喚醒在學術上稱為 keyword spotting(簡稱 KWS),即在連續語流中實時檢測出說話人特定片段(比如:叮當叮當、Hi Siri 等),是一種小資源的關鍵詞檢索任務,也可以看作是一類特殊的語音識别,應用在智能設備上起到了保護用戶隐私、降低設備功耗的作用,經常扮演一個激活設備、開啟系統的入口角色,在手機助手、車載、可穿戴設備、智能家居、機器人等運用得尤其普遍,現在小編就來說說關于怎麼用嘿siri喚醒siri?下面内容希望能幫助到你,我們來一起看看吧!

怎麼用嘿siri喚醒siri(解密嘿Siri)1

怎麼用嘿siri喚醒siri

概述

人工智能技術迅猛發展,人機語音交互更加自然,搭載語音喚醒、識别技術的智能設備也越來越多。語音喚醒在學術上稱為 keyword spotting(簡稱 KWS),即在連續語流中實時檢測出說話人特定片段(比如:叮當叮當、Hi Siri 等),是一種小資源的關鍵詞檢索任務,也可以看作是一類特殊的語音識别,應用在智能設備上起到了保護用戶隐私、降低設備功耗的作用,經常扮演一個激活設備、開啟系統的入口角色,在手機助手、車載、可穿戴設備、智能家居、機器人等運用得尤其普遍。

喚醒效果好壞的判定指标主要有召回率(recall,俗稱喚醒率)、虛警率(false alarm,俗稱誤喚醒)、響應時間和功耗四個指标。召回率表示正确被喚醒的次數占總的應該被喚醒次數的比例。虛警率表示不該被喚醒卻被喚醒的概率,工業界常以 12 或者 24 小時的誤喚醒次數作為系統虛警率的評價指标。響應時間是指用戶說出喚醒詞後,設備的反應時間,過大的響應時間會造成較差的用戶體驗。功耗是指喚醒系統的耗電情況,多數智能設備都是電池供電,且需要保證長時續航,要求喚醒系統必須是低耗能的。一個好的喚醒系統應該保證較高的召回率、較低的虛警率、響應延時短、功耗低。

喚醒技術落地的難點是要求在低功耗下達到高性能要求。一方面是目前很多智能設備為了控制成本,搭載的都是一些低端芯片,計算能力有限,需要喚醒模塊盡可能的減少計算計算量以減少能源消耗;一方面用戶使用場景多種多樣,設備也常沒有經過專業聲學設計,遠場、大噪聲、強幹擾、高回聲、高混響等情況下仍然面臨召回率低、虛警率高的問題。

針對此問題,騰訊 AI Lab 近期發表一篇論文,針對複雜聲學環境,特别是噪聲和幹擾人聲場景,對送給喚醒模型的聲學信号進行前處理,以提升其語音信号質量。本論文已被 Interspeech 2020 接收。

很多智能設備安裝有多個麥克風,因此多通道的前端處理技術被應用到喚醒的前端信号處理中。當目标說話人與幹擾聲源分布在不同方向時,多通道的語音增強技術,例如波束形成(beamformer), 能夠有效的增強目标說話人,抑制其它幹擾聲源。但是這一做法依賴較準确的目标說話人方向定位。在實際環境中,由于有幹擾聲源的存在,使得很難從帶噪數據中準确估計目标說話人的方位,特别是當有多人在同時說話時,也無法判斷哪一個是目标說話人。因此本文采用“耳聽八方” (多音區) 的思路,在空間中設定若幹待增強的方向(look direction),然後區别于傳統的波束形成做法(這個做法已發表于 ICASSP 2020 [1]),本文提出了一個基于神經網絡的多音區(multi-look)語音增強模型,可同時增強多個指定的方向聲源。這些多個方向增強輸出的信号再通過注意力機制進行特征融合送予喚醒模型。由于前端的增強是通過神經網絡處理的,這樣多音區的增強模型與喚醒模型可以進行聯合優化,實現真正的前後端一體的多音區語音喚醒。

基于神經網絡的多音區語音增強模型是首個完全基于神經網絡的多音區語音增強模型。相比于特定方向的語音增強,本文提出的模型可同時增強多個方向聲源。同時這種基于神經網絡的方法,在性能上顯著優于基于傳統的波束形成做法。完全基于神經網絡的多音區前端,與喚醒模型聯合訓練,前後一體的做法進一步提升模型的魯棒性和穩定性。此模型适用于多麥克風設備的語音喚醒。

以下為方案詳細解讀。

方案詳解

傳統的多音區語音處理的思路,是在空間中設定若幹待增強的方向(look direction),每個方向分别應用一個波束形成,增強這個方向的聲源,最終本文将每個方向增強輸出的信号輪流送給喚醒模塊,隻要有一個方向觸發喚醒,則喚醒成功。這種基于多音區的多波束喚醒技術大大提高了噪聲下的喚醒性能,然而需要多次調用喚醒模塊,因此計算量較單路喚醒也成倍增加,功耗變大制約了應用。針對這一情況,作者在早前一點的工作中[1]将注意力(attention)機制引入到喚醒框架下,如圖 1 所示,多個 look-direction 增強的信号提取特征後通過 attention 層映射成單通道輸入特征,再送入單路喚醒網絡層,與單路喚醒相比僅僅增加了一層網絡,既保證了喚醒性能,計算量又大大降低。

圖 1:基于多波束特征融合的喚醒模型[1]

以上介紹的基于波束形成的多音區喚醒[1],前端的信号處理(波束形成)和喚醒模塊還沒有做到聯合調優。因此本文提出了一個基于神經網絡的多音區語音增強模型。該模型讀取單個通道的語譜特征和多通道的相位差特征,同時根據預設的若幹音區方向(look direction),作者分别提取對應的方向特征(directionalfeature)。這些方向特征表征每個時頻點是否被特定音區方向的聲源信号占據,從而驅動網絡在輸出端增強距離每個音區方向最近的那個說話人。為了避免因為音區和說話人的空間分布導緻目标說話人經過多音區增強模型處理後失真,實驗中使用一個原始麥克風信号與多個方向增強輸出的信号一起通過注意力機制進行特征融合送予喚醒模型,由于前端的增強是通過神經網絡處理的,這樣多音區的增強模型與喚醒模型可以進行聯合優化,實現真正的前後端一體的多音區語音喚醒。完整的模型結構在圖 2 中描述。

圖 2: 本文提出的基于神經網絡的多音區語音增強和喚醒模型[2]

圖 3 是一個多音區增強的實例。兩個說話人分别位于圖(a)所示位置,麥克風采集的兩人同時說話信号譜如圖(b). 作者設定了 4 個待增強的方向(0 度,90 度,180 度和 270 度)。多音區增強模型将會在 0 度和 90 度方向增強藍色說話人,180 度和 270 度方向将會增強黑色說話人, 增強後的 4 個方向語譜如圖(c)。

圖 3: 多音區增強網絡輸出實例

在圖 4 中,作者對比了基于神經網絡的多音區增強喚醒模型與基于波束形成的多音區增強喚醒模型和基線的單通道喚醒模型。可以看出特别是在小于 6dB 的信幹比聲學環境下,本文提出的做法顯著超越其它方法。不同方法喚醒率測試均在控制誤喚醒為連續 12 小時幹擾噪聲下 1 次的條件下進行的。

圖 4:多音區喚醒模型的性能對比

總結及展望

本文提出的多音區語音增強和喚醒的做法,大幅降級了喚醒前端語音增強與喚醒結合使用的計算量,在未知目标聲源方位的情形下,同時增強的多個方向聲源信号的特征融合可保證目标語音得到增強,給準确的喚醒提供了保障。在論文中測試的多說話人帶噪聲的複雜聲學環境下,喚醒率達到 95%。

多音區的語音增強模型已經與聲紋模型結合,形成多音區的說話人驗證,提升聲紋系統在複雜遠場聲學環境下的魯棒性。未來這一工作可與語音識别等其它語音任務相結合。

參考文獻:

[1] Integration ofMulti-Look Beamformers for Multi-Channel Keyword Spotting,Xuan Ji, Meng Yu, JieChen, Jimeng Zheng, Dan Su, Dong Yu, ICASSP 2020

[2] End-to-EndMulti-Look Keyword Spotting, Meng Yu, Xuan Ji, Bo Wu, Dan Su, Dong Yu, Interspeech2020

延伸閱讀:

深度學習與大數據系統融合是dead direction嗎?-InfoQ

關注我并轉發此篇文章,私信我“領取資料”,即可免費獲得InfoQ價值4999元迷你書,點擊文末「了解更多」,即可移步InfoQ官網,獲取最新資訊~

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved