語音交互指的是-tft每日頭條

語音交互指的是

圖文更新时间:2026-06-22 20:15:28

本文将從“若琪，幫我設置明天早上8點的鬧鐘”出發，講解智能音箱的工作流程，以及語音交互設計流程，同時也會講解各類型AI産品經理/Ai運營的工作内容和考核指标，Enjoy。

2018年全球智能音箱銷量達到1.2億台，其中中國市場銷量達到2200萬台。

随着智能音箱的興起，語音交互開始崛起，語音是最自然的交互形态之一，有着輸入效率高、門檻低、方便解放雙手以及能有效進行情感交流的優勢。BBC預計2020年語音助手市場規模将達到近100億美金。

如下圖所示，一次完整的語音交互，包含：喚醒→ASR→NLP→TTS→Skill的流程。

一、喚醒

智能音箱有别于智能手機的語音交互，需要先激活音箱，激活的辦法有兩類：

傳統的方式是：通過按鍵激活，例如：錘子的大衛和希瑞音箱，增加了外設的按鈕，可以點擊按鈕激活音箱進行說話。

業界的普遍做法是：通過設置激活詞來喚醒音箱，例如：“天貓精靈”，“小愛同學”，“若琪”。

為什麼喚醒詞普遍是4音節，而不是中國人更習慣的3音節或者2音節？

這是因為音節越短，誤喚醒的問題就會越嚴重。

誤喚醒是指：設備被環境音錯誤激活。

誤喚醒的壓制是行業難題，除了模型優化，還有幾種普遍的做法：

第一：雲端2次校驗——即将用戶的語音上傳到雲端進行2次确認，再決定本地是否響應，但是帶來的弊端就是喚醒響應時間被拉長。

一般設備的喚醒檢測模塊都是放在本地的，這是為了可以快速響應，本地響應可以将響應時間控制在300-700ms之間。如果進行雲端2次确認，這個識别降低喚醒的響應時長，會被延長到900ms~1.2S之間，如果網絡環境差，這個時間可能更久。

第二：從産品策略入手，一般白天偶爾的誤喚醒用戶都是可以理解的，或者說習以為常了。但是，如果是晚上睡覺時發生誤喚醒，用戶都是零容忍。

因此，一種做法是壓制晚上的誤喚醒，帶來的問題是晚上喚醒的敏感度也同步降低，但是整體來看還是可以接受的。

喚醒詞還承載了另外一個功能那就是聲紋檢測。業内的普遍做法是基于喚醒詞的校對來判斷用戶身份，當然也有基于用戶指令語句來是别的。

但是，目前業内普遍聲紋識别的準确率不是特别高，當用戶感冒、變音調，聲紋識别就會失效，因此聲紋在智能音箱的應用就非常受限。除了聲紋支付，隻能應用于對召回率要求不高的應用場景。

進階知識點：

智能仲裁：當家庭有多台設備時，同時喚醒最好隻有一台設備應答，這時候需要感知用戶所在空間，以及距離設備的距離，選擇合适的一台設備做應答并執行後續指令。

算法産品經理職責：

核心的職責是了解當前算法的能力和邊界，提出産品側解決方案去放大算法能力或者規避算法缺陷，例如：設置夜間模式壓制誤喚醒，增加用戶自定義喚醒詞提升用戶側的體驗。

喚醒的衡量指标：

喚醒率、誤喚醒率、喚醒響應時長。

而且，會進一步拆分為：安靜環境下、噪音環境下、AEC環境下，用戶端正常喚醒，快讀喚醒，One-shot喚醒，分别去看以上3個指标。
二、ASR

ASR——自動語音識别：用于将聲學語音進行分析，并得到對應的文字或拼音信息。

語音識别系統一般分為：訓練和解碼兩階段。

訓練：通過大量标注的語音數據訓練數學模型，通過大量标注的文本數據訓練語言模型。

市場上主流的聲學訓練模型有：時序連接分類(CTC)和卷積遞歸神經網絡(CRNN)。

解碼：通過聲學和語言模型将語音數據識别成文字。

聲學模型可以理解為是對發生的建模，它能夠把語音輸入轉換成聲學表示的輸入，更準确的說是給出語音屬于某個聲學符号的概率。

語言模型的作用可以簡單理解為消解多音字問題，在聲學模型給出發音序列之後，從候選的文字序列中找出概率最大的字符串序列。

為了提供特定内容的識别率，一般都會提供熱詞服務，配置的熱詞内容實時生效，并且會提升ASR結果的識别權重，在一定程度上提高ASR識别的準确率。

進階知識點：
尋向/聲源定位：一般音箱的設計都是多麥克風，例如：4麥、6麥，呈線性或環形布局。尋向的作用就是判斷用戶方向，然後用用戶方向的麥克風采集語音數據，保證語音的數據是最清晰的。
降噪：當有環境音時，需要對環境音進行消除，提高算法識别準确率。
AEC：回音消除，如果當前設備既在使用Player進行播放，同時又使用Mic進行拾音，那MIc就會将自己播放出去的聲音給重拾回來。這時為了避免影響算法識别結果，需要對回音進行消除。
VAD：語音端點檢查，使用音頻特征等進行分析，确定人聲的開始和結束時間點。

算法運營崗位職責：

除了算法，負責ASR優化的一般是運營，主要職責是ASR改寫——即當發現線上一些語音總是識别成錯誤的結果時，可以強制将錯誤的結果糾正為正确的，以便在短期滿足用戶訴求。同時糾正的語料也會作為後面算法叠代的素材。

詞錯誤率WER：一般作為語音識别系統中常用的評估标準。
三、NLP

NLP——自然語言處理：用于将用戶的指令轉換為結構化的、機器可以理解的語言。

NLP的工作邏輯是：将用戶的指令進行Domain(領域)→Intent(意圖)→Slot(詞槽)三級拆分。

以“幫我設置一個明天早上8點的鬧鐘”為例：該指令命中的領域是“鬧鐘”，意圖是“新建鬧鐘”，詞槽是“明天8點”。

這樣，就将用戶的意圖拆分成機器可以處理的語言。

算法運營崗位職責：

除了算法，負責ASR優化的一般是運營，主要職責是NLP說法和詞表擴充。

詞錯誤率WER：一般作為語音識别系統中常用的評估标準。
四、TTS

TTS——語音合成：即将從文本轉換成語音，讓機器說話。

TTS業内普遍使用兩種做法：一種是拼接法，一種是參數法。
1. 拼接法

從事先錄制的大量語音中，選擇所需的基本發音單位拼接而成。

優點：語音的自然度很好。

缺點：成本太高，費用成本要上百萬。
2. 參數法

使用統計模型來産生語音參數并轉化成波形。

優點：成本低，一般價格在20萬~60萬不等。

缺點：發音的自然度沒有拼接法好。

但是随着模型的不斷優化，現在參數法的效果已經非常好了，因此業内使用參數法的越來越多。
五、Skill

Skiil，技能，也即AI時代的APP。

Skill的作用就是：處理NLP界定的用戶意圖，做出符合用戶預期的反饋。

語音skill的設計與産品APP差别很大，筆者經過一段時間的積累，總結了一下原則供參考：
1. 設計原則

原則1：增加回複的多樣性——高頻的指令盡可能增加多的回複TTS語句，避免用戶反複聽到相同的回複。

原則2：重要信息後置——一般語音回複尤其是當用戶在開車的過程中，需要将重要信息放在後面，因為心理學上有個“時近效應”，聽覺刺激往往排在後面的影響力更大。

原則3：合理的簡潔——用戶可感知時簡潔回複，用戶不可感知時完整回複。

假如用戶指令“停止播放”，這時候隻需一個提示音或者一個簡答的回複“好的”。

但是，如果用戶的指令是“幫我設置一個明天早上8點的鬧鐘”，回複就需要是完整的，例如：“已幫你設置好明天早上8點的鬧鐘”，否則用戶會沒安全感，不知道你設置的到底對不對，如果不對，那帶來的風險是很大的，所以一定要完整回複。
2. 建立流程

Skill的建立流程如下：

Step1：定義用戶特征及使用場景。

Step2：定義産品人設。

Step3：收集用戶意圖并編寫語義協議，包含Intent、slots的定義。例如建立一個“添加鬧鐘”的意圖，slotes包含“DateTime”，表示的是具體的時間點。

Step4：撰寫TTS文案，也即用戶指令處理之後需要給與用戶适當的反饋，例如：反饋語是“ok，我會再明天早上8點準時叫你起床”。

Step5：業務邏輯設計，例如：當用戶深夜過了12點，說“幫我設置明天12點的鬧鐘”，大概率是想設置今天上午8點的鬧鐘。因此，可以直接設置成今天上午8點的鬧鐘，但是要明确告知用戶。

Step6：開發實現，數據觀察。
3. Skill産品經理職責
Skill的設計要完善覆蓋用戶所有的可能意圖和說法，然後給出最恰當的回應。
Skill活躍率或者留存率是Skill産品的核心考核目标。

以上。

作者：Jason（微信号Smart_Byte），Rokid AI 産品經理，前阿裡資深産品經理。

本文由 @Jason 原創發布于人人都是産品經理。未經許可，禁止轉載

題圖來自Unsplash, 基于CC0協議
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文 gba惡魔城有什麼版本
《惡魔城》系列無論在什麼平台，都将會是最具代表意義的作品。我們曾經在FC、街機、GB、GBA、SFC、MD、NDS、SS、PS、PSP、N64、PS2、3DS、X360、PS3......這些主機平台上面都曾經體驗過不同的版本，每個平台的故... 2022-11-18
圖文黃日華痛失的愛情
患難時刻見真情。能同甘共苦的夫妻才是真正的恩愛夫妻。然而在演藝圈，像黃日華這樣癡情的男子并不多見。他之所以被稱之為娛樂圈的“癡情漢”。是因為黃日華在妻子重病期間，不離不棄，傾盡家産為妻子治病，甚至願意捐肝。即使妻子做出背叛自己的事情，他也沒... 2022-12-16
圖文各種牛排的口感有什麼不同
西餐·牛排在西餐引入中國後，受到了很多人的歡迎、喜愛。早期在國内的時候，牛排還算是十分高檔的食材，隻有一部分人才吃得起，它的烹調方法，大多以煎和燒烤為主。但随着社會的不斷發展，現在牛排已經很普及了，不管是西餐店還是自助餐店都能看見牛排的身影... 2022-12-04
圖文 aj為什麼有那麼大的魅力
aj為什麼有那麼大的魅力?AJ全稱"AIRJORDAN"，是耐克旗下以NBA著名球星喬丹命名的系列，今天小編就來說說關于aj為什麼有那麼大的魅力?下面更多詳細答案一起來看看吧!aj為什麼有那麼大的魅力AJ全稱"AIRJORDAN"，是耐克旗... 2022-10-02
圖文不粘鍋好用還是鐵鍋好
不粘鍋好用還是鐵鍋好?你家裡有幾口炒菜鍋，是鐵鍋還不粘鍋好不好清洗，油煙大不大，生不生鏽，我做了二年多鍋具，把基礎知識分享給朋友，便于朋友購鍋參考，下面我們就來聊聊關于不粘鍋好用還是鐵鍋好?接下來我們就一起去了解一下吧!不粘鍋好用還是鐵鍋好... 2022-10-13
圖文關于橙子的搞笑句子
極目新聞記者李輝攝10月17日，在武漢光谷雄楚大道一家大型超市内，水果售貨員把一款綠色的冰糖橙擺放到綠橘旁，這兩種綠色的水果放在一起出售，不認真看，很容易混淆。售貨員講解現場，有顧客購買嘗鮮據該售貨員稱，這種橙子很“憋屈”，隻因果皮是綠色，... 2022-10-31
圖文餐飲公司起名大全參照
餐飲公司起名大全參照?晏平起名，公司起名，餐飲公司的起名大全，今天小編就來聊一聊關于餐飲公司起名大全參照?接下來我們就一起去研究一下吧!餐飲公司起名大全參照晏平起名，公司起名，餐飲公司的起名大全餐飲業，又稱飲食業，是很具代表性的傳統行業，稱... 2022-10-05
圖文幹性皮膚為什麼老是出油呢
現在越來越多的人抱怨皮膚問題，尤其是臉部出油太嚴重，尤其在夏天，滿面油光，實在不太美觀，如果你是屬于油性肌膚，就需要特别留意了，接下來帶你來了解下油性皮膚問題。首先來看下油性皮膚的特點有哪些?從外觀上看臉部暗黃，膚色較深，皮膚偏堿性，彈性較... 2022-10-27
圖文五菱車哪款經典
五菱車哪款經典?五菱，這個品牌一直被譽為一代神車，一直被大家乘坐是生産面包車的，其實無論面包車也好，到現在生産的MPV，轎車，SUV，還是小電動車，我們一直看到五菱的變化，我來為大家講解一下關于五菱車哪款經典?跟着小編一起來看一看吧!五菱車... 2022-10-03
圖文小戶型衛浴櫃哪家強
衛浴洗臉組合櫃相信不少家庭在裝修的時候都有聽說過，在衛生間裝修中，想要舒适的空間，選材定不能馬虎，今天裝一網就來跟大家詳細講講。衛浴洗臉組合櫃價格一般是多少由于使用材料、制作款式、加工工藝的不同，因此它的市場價格差異也比較大。一般來說，洗臉... 2022-11-04
圖文雞蛋和紫薯怎麼弄
今天早上，女兒又給我出難題了。事情是這樣的，她告訴我，從上周開始，她已經連續吃了四天的包子、油條和豆漿了，可不可以來點兒新花樣？其實，并不是我這個做媽的懶，而是——女兒那幾天的早餐是老公準備的，他可真是氣死我了！這個不懂生活的男人啊！其實，... 2022-12-12
圖文暗黑2适合法師的初期裝備
說遊戲，聊故事，大家好，我是小翎~暴雪在暗黑2中為7大職業分别設計了終極套裝，并且專門設計了對應的外觀特效，或是發光、透明、變身等，這在那個年代中，是十分難得的設計之一。明顯暴雪曾經想作為最強裝備，被玩家使用。但事與願違，暗黑2的終極套裝并... 2022-11-01
圖文基因跟染色體怎麼區别
基因跟染色體怎麼區别?，下面我們就來聊聊關于基因跟染色體怎麼區别?接下來我們就一起去了解一下吧!基因跟染色體怎麼區别山西省生殖科學研究所醫生盧文亮：上次有個病人上來,然後他拿着那個染色體的報告單，問我說，染色體這個核型正常，是不是就代表就是... 2022-10-20
圖文回顧惠州大亞灣核電站建設
大亞灣核電基地中廣核大亞灣核電基地再度刷新世界安全運行紀錄。記者昨日從大亞灣核電運營管理有限責任公司（以下簡稱“大亞灣核電公司”）獲悉，截至2020年3月15日，嶺澳核電站1号機組連續15年無非計劃停機停堆，實現連續安全運行達5000天，創... 2022-11-19
圖文攜程如何訂機票便宜
攜程如何訂機票便宜?眼看春節就要到了，小夥伴們買好回家的票了嗎？對于要乘飛機回家的旅客來說，機票動辄成百上千元，想想還是有些肉疼微報姐經過對比發現，訂機票酒店不同網站價格并不一樣，搞不好真會像某廣告說的一樣“同樣的酒店，你住1200，我住5... 2022-10-14
圖文讓女生心動的十個信号
#頭條創作挑戰賽#文/#昌談人生#所謂女生心動，就是女生開始對某個男生打開心門，開始喜歡上某個男生。所謂前兆，自然是沒有心動之前的征兆，女生心動的前兆，自然是預示着女生将要對一個男生動心的征兆。那麼，女生心動的前兆是什麼呢？1、女生心動的前... 2022-10-24
圖文牛雜原來真的沒人吃嗎
本文受權轉載自“識廣”（ID：sikgwong），作者丨阿丁說起小吃，不少人會馬上想到長沙臭豆腐、天津煎餅果子、武漢熱幹面等等。但是當你問一個廣東人，印象最深的小吃是什麼，他的回答很可能是——牛雜。（via網絡）廣東人對牛雜愛得熾熱。熾熱到... 2022-11-07
圖文如何查詢快遞單号裡的東西
快遞單号太多，如何查詢全部物流信息呢？有沒有簡單一點的查詢技巧呢？小編的回答當然是有的，下面一起來試試吧，希望能給大家帶來幫助。所需工具一台電腦快遞單号若幹操作步驟在浏覽器中搜索【快遞批量查詢高手】并安裝到電腦上，此款軟件綠色安全，可以放心... 2022-11-23
圖文樂隊的夏天2汪峰是從第幾期開始
01好，接下來，是本季樂夏最後的一個舞台，這會是一個特别的表演。他們是……2020年10月10日，《樂夏2》總決賽。馬東這段開場語說完，一連串老照片閃現在大屏幕上。熟悉的背影，眼鏡，食指指向天空的姿勢。誰都認得出來，這個人就是汪峰。中國第一... 2022-11-26
圖文 cad繪圖基本步驟
1.在畫圖時如何将遇到“CAD閃退”時的文件中的内容找回來2.CAD中的BAK檔用處3.CAD圖形修複命令使用方法（1）先按圖片中的地方給CAD設置自動保存時間為“2-3分鐘”看圖檔的大小，如果你圖檔較大的可以設置為5-10分鐘，較小的可以... 2022-11-18
圖文記住這3款秋冬經典外套保暖又時髦
借着反季打折期入手這些羽絨外套，購物更省錢還能保持流行度雖然春天的節奏已經開啟，不過依然有不少城市需要慢慢從冬日蘇醒過來，羽絨外套在穿搭場景依然能發揮作用。更何況，聰明的購物者會利用反季時間，實惠入手一些冬日款，讓自己的變美之旅更聰明，艾利... 2022-11-09
圖文張國榮梁朝偉王家衛
說到香港電影中，成就最高的男演員，一定少不了梁朝偉。這位華語電影史上，榮獲第二座戛納影帝桂冠的男演員，是這個浮躁時代裡，少有的全身心投入所有精力，投入到電影表演藝術實踐當中的藝術家。梁朝偉的成功，離不開一位名叫王家衛的導演。這位1958年出... 2022-12-04
圖文當待春中草木蔓發的作者
當待春中草木蔓發的作者?來源：解放軍報作者：田之章題目的這句話，出自《聊齋志異》中一個故事的評語意思是說，當下做的所有事，就是日後得到結果的原因用現在人們常說的一句話就是：種瓜得瓜，種豆得豆，下面我們就來聊聊關于當待春中草木蔓發的作者?接下... 2022-10-11
圖文清道夫要養多大的
清道夫要養多大的?2015-12-1016:25:35清道夫是家喻戶曉的魚缸環衛工，是魚缸清理的好幫手可是你真的了解清道夫嗎？養清道夫真能清理垃圾嗎？下面寵物秀就給大家講講清道夫的飼養知識，今天小編就來聊一聊關于清道夫要養多大的?接下來我們... 2022-10-06
圖文乒乓球怎樣反拉高吊弧圈球
如果讓我們找一門最能夠體現旋轉奧妙的球類運動，那我們該選什麼呢？毫無疑問就是乒乓球，乒乓球具有體積小、重量輕的特點，這些特點都有利于我們用球拍制造各種方向以及強弱不等的旋轉，所以，乒乓球技術的最高境界就是旋轉的運用。這些是常見的旋轉類型，帶... 2022-11-25
圖文深圳九大富人居住區
對于深圳來說，千萬級豪宅被“秒光”、“日光”已經不是什麼新鮮事了，就連疫情也沒能阻擋富豪們的買房熱情。今年3月，深圳年後的首個豪宅項目——招商蛇口太子灣·灣玺開盤，一套2000萬起步，當天就被現場戴口罩排隊的土豪們搶完了。第二批14套420... 2022-11-15
圖文當伴娘要忌諱什麼
當伴娘要忌諱什麼?伴娘的定義是保護新娘的人體盾牌，為了混淆視聽，她與新娘穿着相仿，以防惡人擄走新娘，接下來我們就來聊聊關于當伴娘要忌諱什麼?以下内容大家不妨參考一二希望能幫到您!當伴娘要忌諱什麼伴娘的定義是保護新娘的人體盾牌，為了混淆視聽，... 2022-10-06
圖文完美世界手遊法擊型加點
随着妖族妖刃職業的更新上線，《完美世界》手遊也終于迎來了自己的刺客職業，妖族妖刃。此前一直有玩家表示沒有刺客職業自己的騷操作表現不出來，如今妖刃終于在更新後登陸，下面就讓我們一起去看看這個大家期盼已久的職業到底要怎麼玩吧。職業定位選擇妖刃作... 2022-12-31
圖文吉事辦添新功能
為方便群衆更好地體驗“吉事辦”掌端服務近日“吉事辦”移動端（小程序、App）新增身份證補辦進度查詢功能用戶登錄“吉事辦”移動端（小程序、App）在首頁“主題服務”選擇“公安服務”在“其他服務”中點擊“身份證辦理進度查詢”或“身份證郵寄單号查... 2022-11-10
圖文社保卡怎麼樣的情況下使用
最近，有昆明市民接到單位通知領取了新社保卡，但對于新卡的使用她卻并不了解。為何要換發新卡？新卡有哪些功能？新卡啟用後，老卡賬戶裡的金額會自動轉移嗎？針對新卡申領和使用方面的問題，記者采訪了省人社廳。金融社保卡有什麼新功能？加載金融功能後的社... 2022-12-26

tft每日頭條

> 圖文

> 語音交互指的是

語音交互指的是

一、喚醒

二、ASR

三、NLP

四、TTS

1. 拼接法

2. 參數法

五、Skill

1. 設計原則

2. 建立流程

3. Skill産品經理職責

相关圖文资讯推荐

热门圖文资讯推荐

网友关注