在功能層上進行合理布局、給予用戶完善的交互體驗,是幾乎所有産品都需要遵循的一個原則,智能座艙産品也不例外。那麼智能座艙的語音交互功能,包括哪些組成環節?本篇文章裡,作者針對智能座艙的語音交互設計及發展做了解讀,一起來看。
之前有車企的負責人咨詢當前智能座艙語音交互的現狀和發展趨勢,筆者借此做個簡單的總結和歸納,以下内容将分為語音交互的喚醒、聆聽、理解、播報4個部分。
一、喚醒1. 聲源定位從雙音區發展到四音區
使用聲源定位的目的主要有兩個,第一個目的是知道是誰在說話并提供個性化服務,例如副駕說“打開窗戶”,這時隻有副駕的窗戶會被打開;第二個目的是實現定向拾音,由于車内外環境的噪音較大,同時乘客之間的讨論和回聲會影響語音交互的拾音質量,因此聲源定位能讓麥克風陣列鎖住某個方向的聲音。
雙音區的意思是将座艙分為左側和右側,無法識别是駕駛員還是後排左側的乘客說話,因此局限性較大。四音區可以将座艙區分為駕駛員、副駕、後排左側和後排右側四個區域,能較好地解決雙音區的問題。
以下是騰訊騰訊AI Lab總結的各種車載麥克風陣列分布形式,及其優缺點 。
2. 語音交互支持One-Shot
部分語音技術供應商支持“One-Shot”技術,這也被稱為“喚醒連說”。它的意思是“喚醒詞 意圖識别”一體化,支持用戶可以在說出喚醒詞之後不作停頓,立刻說出後續需求。
例如用戶直接說“Alexa幫我打開車窗”,Alexa就能直接把車窗打開。這種方式摒棄傳統的一問一答的形式,極大減少用戶語音操控的步驟,化繁為簡,操作簡便。“One-Shot”不會改變語音交互設計的任何邏輯,但它能明顯提升使用時的體驗。
3. 語音交互支持喚醒詞 離線意圖識别
離線識别就是為了解決信号不好導緻指令無法執行的問題。為了控制硬件成本和體積大小,客戶端的算力遠不如雲端,其次核心算法放在本地有被競争對手盜取機密的可能,所以我們不可能将所有的識别技術放在本地進行。
一般離線識别主要服務于常用簡單的指令,例如“打開車窗”、“調節溫度”等等,它們會通過正則表達式獲取關鍵詞,匹配指令後執行。
4. 語音交互支持免喚醒指令
部分語音技術供應商支持“免喚醒”技術,例如省略“Alexa”直接說“打開車窗”,車窗會直接打開。
其實“免喚醒”正是用了喚醒詞技術,隻不過把默認喚醒詞改為指令,新的喚醒詞被命中後會直接執行相關指令。
但是,我們不能把所有的指令設置為免喚醒,首先喚醒詞識别有自己的局限性,不是所有的文字都能被正确識别,其次,越多的喚醒詞意味着被誤喚醒的幾率越高。用戶對其他乘客說打開車窗時,語音系統會誤以為用戶對自己發出的指令從而執行了相關操作。所以“免喚醒”要慎用。
5. 語音交互支持多模喚醒
語音交互喚醒方式除了常見的喚醒詞和方向盤按鍵,姿态追蹤和眼動追蹤在未來有可能成為語音交互喚醒的新方式。
在人和人的交流過程中,當A轉向并看着B時,B大概率知道A要發起交流,而且A也不會先說:“你好,B”,除非兩者關系較差或者場景比較微妙。
在人機交流過程中應該滿足以上場景,如果智能座艙中擁有一個實體機器人或者在屏幕裡有較大面積能顯示一個語音助手,我們可以通過用戶頭部姿态的轉向和注視時長判斷用戶是否想和語音助手發起交流,用戶也有可能向語音助手揮手,以上動作觸發後語音助手應該激活并開始聆聽。
有讀者可能會問,為什麼要做這麼多方式來喚醒語音助手?
因為自然交互和多模交互有個特點就是要考慮冗餘的設計,用戶在不同場景下有可能采用不同的方式向語音助手發起交互,例如在上車場景時用戶心情較好确實有可能向語音助手揮手Say Hi,如果語音助手沒有任何動靜,用戶的心情有可能受到打擊;還有另外一個例子是小孩的交流方式是多樣的,語音助手應該有相應的配合。
眼動追蹤在未來有可能成為一種喚醒方式,當用戶看向哪個地方并發起語音交互時,這時用戶眼睛看向的地方會成為語音指令中的主語,例如儀表盤上突然出現一個紅色圖标,用戶有可能看着它直接問這是什麼意思?這時語音助手可以做相應的解答。
二、聆聽1. 全雙工語音交互成為主流
持續監聽可以理解為一旦喚醒語音助手,語音助手會把麥克風一直打開。用戶可以一直說,語音助手會針對用戶每一句話分别作出響應。
但是持續監聽的體驗依然存在很多問題,因為麥克風一直打開,語音助手會把所有的聲音進行聆聽并做出響應。假設上一輪對話未結束,這時候語音助手聽到其他人說的話,誤以為這是新的語音任務,會把上一輪對話直接結束并播報新的内容。
還有些具備持續監聽能力的語音助手一旦聽到其他聲音會立刻停止播報,這對用戶來說無疑是一種斷斷續續的體驗,效果可能比單輪交互、多輪交互還要差。
目前很多車廠已經宣稱自己的車配備了全雙工語音交互技術,相比簡單地把麥克風打開,全雙工語音交互不會像持續監聽一樣容易被噪音打斷整個對話過程。要實現以上效果,全雙工語音交互需要擁有更強的抗噪能力和上下文理解能力,它能理解每一句噪音是否跟當前任務有關,并且能猜測當前任務下一輪對話是什麼,這對于技術的要求非常高。
全雙工語音交互可以簡單地理解為真正的“邊聽邊說”,用戶一旦習慣了全雙工語音交互,就很難回到以上單輪交互、多輪交互和持續監聽三種交互模式,因為它們都不是自然的交互方式。
2. ASR支持自動校正
筆者發現以前自己在手機地圖使用語音輸入,它會根據你的口音、地理位置和曆史記錄等因素進行ASR的校正,以及将ASR中出現一些同音字、二義性詞以及用戶發音不标準或者說錯的字詞進行校正。
百度地圖、高德地圖的手機地圖做得好的原因是地圖是用了自己的語音交互系統,以及十多年的地圖數據積累,但是車載地圖的語音交互系統有可能采用的是思必馳、科大訊飛等供應商,在ASR校正時缺乏地圖數據的校驗導緻識别準确率較低,這個問題的解決需要多個供應商一起配合才能較好地解決。
3. 聲紋識别在未來有一定作用
聲紋識别在聆聽過程中能有效區分不同人正在說的話,對于上下文理解有一定的幫助,而且根據應用場景為車内駕乘人員提供差别化服務,但目前有可能因為技術仍未成熟暫未看到有車企使用了聲紋識别技術,在未來有一定的發展空間。
三、理解1. 支持一句話包含多個任務的理解
這是一項體現語音交互高效率的重要特性。一般來說GUI完成一項任務需要分幾個步驟,語音交互可以一句話就搞定,在導航場景下用戶可以說“我想去廣州機場,途中先去趟超市和充電站”,語音交互可以幫助用戶一次性設置三項途經點,效率提升了不少。手機百度地圖在幾年前已率先支持該能力。
2. Shortcuts成為基礎能力
iOS應用Shortcuts允許用戶設置多個指令,然後命名為一條語音指令,用戶隻要對Siri說出這條語音指令就能把相關指令按順序執行。小鵬汽車在2020年已經支持了Shortcuts功能。
3. VUI和GUI融合将成為系統底層設計
小鵬汽車在2020年發布的全場景語音交互正是将語音交互和GUI進行深度打通,它能有效實現語音交互直接控制GUI上的控件和組件,極大提升了駕駛員對于系統控制的效率。
四、播報1. 讓播報音色更拟人
當前大部分語音助手在播報時語氣沒有任何變化,而且音色機械感強,實現語音助手的拟人化播報将有效提升語音助手的情感表達。小鵬汽車在2021年7月份新推出的小P版本聲稱具備愉快、溫和、親熱等14種強烈情緒的變換能力,而且在微軟MOS(Mean Opinion Score)語音質量評測中獲得了4.49的高分(滿分為5分,分數越高越接近真實人聲)。
音色自定義也是一個可見得着的趨勢,2019年百度地圖推出了地圖語音定制産品,用戶隻需在百度地圖App上錄制20句話,20分鐘左右即可生成個人完整語音包,21年億咖通攜手百度Apollo定制新一代智能座艙系統也包含了相關功能。
2. TTS個性化播報
除了音色可以提升情感表達,根據場景定制TTS文本也能有效提升語音助手的情感表達。
舉個例子,語音助手和所有用戶對話過程中都會用“你”字,“不好意思我聽不懂你能再說一遍嗎”、“請問有什麼可以幫你的呢”……如果将“你”字改為名字和昵稱,這時表達和用戶的感受會發生新的變化,因為用戶知道語音助手知道自己是誰,這有可能會加強用戶對語音助手的信任感;第二說名字和昵稱更能體現親切感,就跟朋友聊天的時候不會天天用“你”字。
再舉個例子,當用戶上車時語音助手會根據不同的上車順序和用戶身份一一打招呼,例如“Hi,奶奶(年老的婦女,坐在後排左側)、小明(駕駛員)、小紅(小孩,坐在後排右側)”,這比語音助手隻跟駕駛員打招呼親切得多,而且能體現出這個語音助手是智能且懂禮貌的。
以上例子看起來是在TTS文案上進行優化,背後其實采用了一系列空間信息、身份理解以及性别、年齡預測等技術。以上技術都已成熟,雖然這看起來使用了大量技術而且最後呈現的結果僅僅是文案的變化,但筆者認為它們對于語音助手的情感化和個性化有質的提升。
最後,除了語音交互,基于聲音的創新也在不斷發展當中。由于駕駛員在駕駛過程很難看到背後的事物,但聽覺能接收并感知來自360°的信息,因此在不同位置播放音效能有效對駕駛員進行預警和提示,提升駕駛員的空間感知能力。
除了空間上的預警提醒,娛樂和體驗也是智能座艙重點關注對象,7.1聲道以及7.1.4聲道音響能為乘客帶來不一樣的感官體驗,因為聲音可以在空間中流動起來,這時電動汽車可以在7.1聲道的基礎上重新設計引擎聲浪系統,也可以配合主動式氛圍燈做更多空間上的渲染。
專欄作家
薛志榮,薛志榮,人人都是産品經理專欄作家。暢銷書《AI改變設計-人工智能時代的設計師生存手冊》作者,全棧開發者,專注于交互設計和人工智能設計。
本文原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是産品經理平台僅提供信息存儲空間服務。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!