本文以車載場景為例,具體分析了其中的語音交互設計流程、原則與設計走查等内容。
從Siri 、Amazon echo Alexa、google home 、小冰、國内的叮咚、天貓精靈、小愛同學以及各種你聽說過的,沒聽說過的。然而,随着技術的進步,語音交互将運用到越來越多的場景:
- 2017年5月10日,微軟Build大會發布智能音箱Invoke,
- 2017年6月6日,蘋果WWDC發布HomePod,
- 2017年7月5日,上午10點,百度AI開發者大會發布DureOS開放平台,
- 同一天,下午2點,阿裡人工智能實驗室發布天貓精靈,
- 2018年1月,百度DuerOS在CES 2018上驚豔亮相……
駕駛汽車是一項複雜的行為,好的駕駛體驗需要綜合考慮駕駛場景的各個因素。完全自主駕駛汽車的時代馬上就要到來。當汽車能夠實現完全自主駕駛時,對于汽車駕駛場景的概念将完全被颠覆—也許我們應當将精力集中在如何設計駕駛過程中的娛樂服務,或者将駕駛室設計成為駕駛員的工作台。不得不說的是,車載中控系統目前為止的體驗都不太好,在完全自主駕駛時代到來之前,車載中控系統的體驗設計還有很大的空間被提升。
一、基本概念
車載場景下的語音交互(後面簡稱VUI),追求駕駛者的使用體驗,緩解甚至消除駕駛過程中帶來的焦慮現象。車載VUI設計的基本理念如下:
- 安全:駕駛過程中幾乎是眼、耳、手并行的多任務操作狀态,VUI應該有助于駕駛者和車載産品更好的交互,并且不會分散駕駛的注意力。
- 便捷:每一次VUI交互都是方便且快捷的,打破語音交互的心理障礙,快速響應、流程簡單、路徑明确、最大限度較少每個任務的對話輪數。
- 愉悅:令人愉悅的聲音和表達,自然的對話交流,流暢地完成每一個任務,用聰明的方式規避對話錯誤,達到一種“情理之中,意料之外”的境界。
二、設計流程
語音交互的設計需要模拟真實的對話場景,并根據場景來撰寫對話和建立交互邏輯流程,最後通過調研來定義更加全面的表達方式,以達到更加自然合理的語音交互體驗。
2.1 分析使用場景
VUI的應用場景已經覆蓋了手機助手(以Siri、Google Assistant為代表)、智能家居(以Amazon Echo和Google Home為代表)、車載産品(以Carplay和Android Auto為代表)以及可穿戴設備(以AirPods、Apple Watch為代表)等領域。
語音交互的場景主要從物理距離、行為特征、用戶目标三個方面來分析:
物理距離:在交互過程中用戶與語音産品的距離。可以根據遠近關系分為“近場”、“中場”和“遠場”。
- 近場交互:如靈犀 / Siri;手持設備,近距離輸入語音,有反饋界面;喚醒方式一般為屏幕的點擊或長按,也存在語音喚醒的情況。
- 中場交互:如車載;無需手持設備,處于能夠觸及的距離,有反饋界面;喚醒方式多為語音,也可以借助手勢操作;由于距離較遠,需要借助麥克風陣列達到良好的收音效果。
- 遠場交互:如Echo;無需手持設備,處于不能觸及的距離,可以沒有反饋界面;喚醒方式為語音;由于距離較遠,需要借助麥克風陣列達到良好的收音效果。
行為特征:用戶在進行語音交互時,可能正在做着家務,或者開着車,也可能什麼都沒做;在這裡可以把這些行為特征分為“專注于語音交互”和“專注于其它事情”。
- 專注于語音交互:一般發生在近場交互的情況下;用戶手持設備,視線關注在界面上,耳朵關注于語音反饋。
- 專注于其它事情:一般發生在中場、遠場交互的場景;用戶一邊處理着其它任務,如開車、烹饪等,雙手以及視線可能正在被其它事情占用,如何讓用戶最小成本的完成語音任務是設計的重點。
用戶目标:用戶麼每次語音交互的目的,可能隻是随意的閑聊,也可能是目的明确的任務指令。
- 閑聊式:如調戲Siri一樣,目的性并不強,對趣味性的要求更高。
- 任務式:這類對話,用戶需要盡快得到想要的反饋,快速完成任務,清晰和簡潔的反饋是最重要的。
車載環境的語音交互屬于“中場”、“專注其它事情”、“任務式”的交互場景,設計過程中應該遵循這些場景特性。
2.2 建立用戶故事
通過對駕駛場景下車載産品使用情況的用戶訪談和問卷調查,知道用戶在駕駛過程中想要完成什麼任務;結合自身的優勢和劣勢,以及外部市場的機會和威脅,确立産品的技能範圍,如導航、音樂、電台、電話等。
圍繞這幾個核心功能,設定主要場景描繪出用戶在現有車載産品使用過程中的行為習慣、遇到的問題,最後提煉出痛點,找到解決辦法,并尋找出适合VUI去解決問題的場景,用戶故事地圖的框架如圖2-5:
适合VUI的場景通常比較簡單、直觀,不需要太複雜性的互動。舉個例子:你正在高速路上全注意力行車,這時你需要撥出一個緊急電話,但這會兒不方便用手操作手機……此時用戶希望從技能中得到什麼幫助、會做什麼,将是VUI的基礎和價值所在。而建立類似的用戶故事有以下的方法和原則:
确認目的和功能:構建一個或多個情境,讓用戶覺得你的技能有用并且有使用的沖動。可以通過分析以下問題來确定技能的能力:
- 技能的目的是什麼?用戶為什麼想要使用它?
- 用戶在交互前、交互中、交互後分别會做些什麼?
- 用戶可以通過這個功能得到什麼在其它産品上無法獲得的體驗?
創建用戶故事:根據技能的目的和基本功能點,确認每一個交互行為節點
- 用戶能夠通過該項技能做到什麼?不能做什麼?
- 用戶希望能夠獲得什麼信息?
- 用戶可以通過什麼方式來使用這項技能?
2.3 設計聽覺形象
人物畫像可以幫助你設計、撰寫UI對話,所以要盡早确定,這樣就能更容易的決策出正确的用詞、語法和句子結構。人工智能賦予了機器拟人化聲音輸出的能力,帶來的語音設計材料。不同的聲音帶給用戶的感受是不大相同的,低沉的聲音給人“穩重,成熟的”的感覺,尾音語調向上的聲音給人“愉悅,被尊重”的感覺。VUI産品需要被賦予聽覺形象,下面是一些聽覺形象設計的流程和方法。
設計流程:語音是不可見的,在聲音形象的設計中必須先有“語音基礎形象”設計師基于語音基礎形象進行再具體的VUI設計。
- 定義形象:聽覺形象其實和真人一樣,有姓名、性别、年齡、職業、個性特點之分,同時也有聲音的感覺,如柔和親切、利落正式、有磁性等主觀的感受,也有更加客觀的音高、音強、音長、音質幾大屬性。不同的聲音會被我們賦予不同的形象特點,根據内容/産品氣質/品牌願景定義産品的“聽覺形象”。
- 挑選:去語音庫裡挑選具有定義的聽覺形象的語音片段。比如如果要産生的聽覺形象是“滄桑感”時,可以挑選一些單田芳老師語音片段。
- 訓練:将大量語音片段交由技術人員進行語音合成訓練。
- 微調:通過調整“語調、速度、節奏”使之給用戶的感覺更接近于先前定義的“聽覺形象”。
設計原則:
- 保持與“品牌情感”的一緻性:在進行視覺設計時設計師要通過“色彩,形狀”等設計元素支撐品牌情感,對與大型公司會要求他們的每一個産品遵循一緻性的設計規範。進入“聽覺形象”設計時代,當你的産品要使用語音交互時,确保産品的“聽覺形象”與品牌情感保持一緻,這将能夠強化品牌給用戶的印象。
- 保持與“用戶場景”的一緻性: 回想一下機場内的語音“尊敬的旅客飛往北京的T343航班….”,這種語音形象給用戶“被服務的、受到尊敬“的感覺,與用戶在機場的場景相一緻。而在醫院,起碼在中國的醫院,醫療資源與患者數量極不匹配,患者與醫生更像是”求助關系“而非“服務關系”, 使用過于“服務化”的語音形象反而會給用戶帶來強烈的落差感。
- 保持與“内容”的一緻性:“内容”本身是具有形象屬性的,比如二次元的新聞如果用粗犷的男生讀出來一定會很違和。因此在進行内容消費型設計時要充分考量語音所說的内容與“聽覺形象”相匹配,避免出現違和感。但是在設計工具型産品時,不要頻繁更換語音形象,這會分散用戶注意力使效率下降。
2.4 撰寫對話腳本
在确立了技能範圍和用戶故事之後,不要立即開始邏輯設計,對話應該是自然的、多樣性的,用刻闆的邏輯将語音設備與用戶的場景台詞串聯在一起顯然不合理。因此,你需要列舉出諸多可能存在場景,考慮到意外狀況,去草拟撰寫對話草稿,甚至找真人模拟場景對話,盡量覆蓋到每一個狀況。下圖是一些對話撰寫的例子:
對話腳本的撰寫可以幫助我們挖掘一些容易被忽略的細節,而如何反饋和引導對話的進行也是VUI設計的重點和難點,後文中會詳細說明反饋設計的原則和方法。
2.5 建立交互框架與流程
要建立VUI的框架與邏輯,首先需要理解人與人的對話框架,匹配到人機交互的對話場景,以确立每次反饋方式;然後圍繞用戶的意圖以及系統的每次判定節點展開邏輯流程的建立。
交互框架:想像一下你想讓别人放點音樂,這段對話的交互節點是怎樣的,是不是先叫他名字,對方聽到了給你一個回應“幹嘛呢”,然後你可以繼續說出你的需求……我們将交互節點提煉出來,如下圖所示:
圖2-7 對話框架
(1)喚醒
“喚醒”是技能的觸發動作,目前主流的喚醒方式有以下3三種 – 實體按鈕、虛拟按鈕、語音喚醒,如圖2-8,每種喚醒方式各有特點,在車載環境中一般采用按鈕 語音的多重喚醒方式。同時,喚醒之後的反饋形式也有多種,具備顯示屏的設備可以有動效、文字等反饋,不具備屏幕的可以有燈光、音效、人聲等反饋。不同的反饋方式的舒适度和響應時間密切相關,如圖2-9所示。
圖2-8 喚醒方式
圖2-9 喚醒反饋方式與響應時間舒适度曲線
(2)輸入
用戶輸入的語音内容是否被設備的接收,亦是用戶比較關注的問題,在反饋設計中應該匹配當前場景且不讓人反感。具備顯示屏的設備可以有動效、文字等反饋;不具備屏幕的可以有燈光(在用戶輸入時一般不要有聲音的幹擾)等反饋;也可以沒有反饋。
圖2-10 輸入時的反饋
(3)理解
“理解”是機器識别、解析語音内容,并求解答案再生成語音的過程;也是機器的認知過程。這個過程耗時可能會較長,重點在于消除用戶等待的焦慮以及不确定性。具備顯示屏的設備可以有動效、文字等反饋,不具備屏幕的可以有燈光、音效、人聲等反饋,如圖2-11所示。不同的反饋方式的舒适度和響應時間密切相關,如圖2-12所示。
圖2-10 理解時的反饋
圖2-12 理解反饋方式與響應時間舒适度曲線
(4)反饋
這裡語音交互過程中最重要的環節,除了讓用戶得到想要的反饋之外,還應該讓用戶輕松、自然且有效的接收到反饋信息。下表是根據置信度(Confidence)不同劃分的反饋的類型和應用場景。
(5)端點檢測
由于這端點檢測是一種描述計算機何時開始和結束語音的方式。用戶在說話時會有停頓,那麼語音引擎在檢測到用戶停頓多久之後開始識别,停頓5秒是一個比較合适的經驗值;短了,會在結束說話之前切斷用戶;長了,用戶會懷疑系統是否聽到。用戶喚醒語音後,一直不說話,那麼語音引擎在檢測到用戶不說話多久之後直接退出語音識别,未說話10秒是一個比較合适的經驗值。
交互流程:對話表面看起來似乎是雜亂無章,無規律可尋的。但是在自然對話中我們幾乎是無意識地遵循着某些規則與慣例,比如:對話是輪流進行的、是上下文串聯在一起的。人-機對話中,機器是服務于人類的;用戶的每一個指令,機器都需要去判定以及作出最好的回應,并且允許指令的多樣化表達;機器的每一次任務執行,幾乎都能允許用戶 “取消”、“修正”、“催促”、“返回上一步”、“打斷”、“要求重複”、“其它類型指令”、無關信息或者保持沉默。用戶的每一次語音指令後面都跟随一次判定節點,圍繞用戶意圖以及機器的判定節點展開交互邏輯的建立,如圖2-13。
圖2-13 交互流程建立
2.6 定義意圖、表達方式、插槽
這裡分析的是用戶說的内容,這些内容的語音結構可以概括為“喚醒詞 意圖表達 插槽”,如圖2-14所示。
圖2-14 語言結構
意圖:代表了你的技能具備的能力;比如一個導航的技能可能會包含五個意圖:設置目的地、展示路線、說明路況、取消和退出等。
表達方式:用戶所說的那些能夠表達他們意圖的話語,包括大量單詞、短語、句子。比如說,在表達導航這個意圖的時候,用戶可能會說“幫我導航”“導航去科大訊飛”或者“我要導航”等等,這些表達方式分類整理成意圖表達庫,如圖2-15。
圖2-15 意圖表達庫示例
插槽:是指定義某些意圖的關鍵信息類别,例如“導航去科大訊飛”——“科大訊飛”就是一個地址名插。我們将不同屬性的信息進行分類,如圖2-16。每個類類别的信息都有自己的庫,如城市名稱庫、日期庫等等。
圖2-16 意圖表達庫示例
三、設計原則
語音設備需要以一種自然對話的方式進行感知、認知以及輸出自然語言,在VUI設計過程中需要遵循以下原則。
3.1 保持簡潔
“簡潔”的漢語釋義是指簡明扼要,沒有多餘的内容。尊重用戶的時間,提供簡潔的反饋語言、反饋界面(如果有屏幕的話)以及完成任務的最短路徑,不要阻礙用戶。
簡潔的反饋語:用戶能夠輕松理解機器在說什麼,同時感到舒适。過長的語言内容會讓用戶很難抓住重點,并且難于記憶,下面有一些保持語言簡潔的方法:
- 一口氣測試:對于沒有逗号隔開的單句話,如果能夠用正常對話的語速把這句話一口氣讀出來,表示長度是适合的。如果你需要換氣,就要考慮精簡。
- 避免重複:有屏幕的設備,應避免在屏幕上顯示和語音内容完全重複的信息,圖形界面應該提供語音以外更多的信息,利用視覺反饋,幫助用戶更加快捷的完成任務。
- 插槽數量控制:對于包含多插槽信息的語句,插槽的數量能夠被用戶很好的接受不了和理解,這個可以招募一定數量的用戶來進行測試,一般情況下插槽數量不超過三個。
愉悅路徑:最短完成任務的路徑,同時也要準備其它的替換路徑,因為用戶可能沒有一次性給出所有必要信息。
3.2 保證明确
“明确”的是指表達得清晰明白而确定不移,使聽者幾乎不用思索便能聽懂。保證明确的表達,有以下方式。
避免開放式問題:開放式問題可能會混淆用戶或導緻用戶以您不期望或支持的方式回答問題。例如,問“你喜歡什麼?”太開放了。即使是像“香蕉或蘋果”這樣的問題,也可能會出現“是”的回應。
提供明确的選項:不要問一些自己都無法回答的問題,讓用戶糾結于如何回答,特别是在車載場景下的對話,一定要避免用戶過長時間的思考。以來電為例,機器可以詢問“接聽還是挂斷?” 。
明确的陳述句:不要說一些模棱兩可的話語,讓用戶産生疑惑。比如“正在為您撥打電話”比“我可能在撥打電話”更加明确。
3.3 自然的交流
鼓勵用戶自然的表達同時機器也要給出自然的反饋,讓對話更加自然有以下方法。
用戶自然的表達:同一意圖包含多種表達方式,在語音交互中需要支持識别更多的表達方式,讓用戶自然的表達。
機器自然的反饋:不要告訴用戶應該怎麼說,甚至是一句一句的教用戶;盡量不要使用難于理解的專業術語;增加同一含義的表達豐富性,減少機械感。
3.4 推進對話
在語音交互過程中,機器需要促進對話的進行推進對話,通常有以下的方法。
用戶引導:一般用于新手引導,告知用戶功能範圍等。
提問:明确提出問題可以指導用戶接下來該如何說,但也要準備用戶會答非所問。
先抛出一個答案:當用戶回答的信息不全時,有時可以為主動為用戶做出一個選擇,推進任務的進行,同時允許用戶更改。
3.5 符合語境
VUI設計也要盡可能地利用用戶的語境,通曉對話的來龍去脈(上下文),并具備用戶情景意識(如用戶所在地點、用戶是否首次使用等)。
記憶上下文:多輪對話并記住上下文,如“今天的天氣怎麼樣?”——“明天呢?”,機器需要知道用戶問的是明天的天氣。這就是支持用戶的一些省略表達和代詞的使用。
情景意識:考慮用戶處于什麼樣的情景。如:用戶已經知道該如何使用産品,那麼就不再需要反複給用戶一些新手幫助和引導,除非是用戶主動提出的。
3.6 輪流交談
VUI設計也要以用戶為中心,當輪到用戶說話時,不要貿然強行打斷。當機器正在說話時,用戶可以進行打斷。
3.7 有意識地引導用戶注意力
聽覺輸出是時間線性的,不易記憶的,但我們往往能夠記住一句話結尾,也就是聽覺範疇的 “近因效應”,所以我們通常把重點信息放在末端。比如“導航去天府廣場,全程28.2公裡,預計需要30分鐘”,記得最清楚的基本都是“30分鐘”。
3.8 把“錯誤”轉化為對話UI中自然的一部分
VUI設計中會出現“無法識别”、“無法匹配”等各種錯誤情況,如果隻是做一些簡單、機械的處理應對,會讓用戶對産品産生極大的懷疑。下面是一些處理錯誤的辦法。
分類處理錯誤:把錯誤類型進行分類,采用不同的反饋策略:
- 沒有獲取到輸入:可能用戶什麼都沒說,或許系統完全沒有檢測到,這類情況可以不需要任何反饋。
- 獲取到信息,但無法識别:這種情況可能是背景噪音、或是多用戶造成的。如果沒有連續的上下文,可以采取通用提示“你說的什麼?”,“我沒聽清”或者“再說一遍”之類的語句;如果有連續的上下文,可以根據具體的内容來提示,如“你選的第幾個”,“我沒聽清是第幾個”等等。
- 識别了用戶輸入,但不具備處理能力:這種情況需要告知用戶,并給出一些提示。比如“這個我不會,但是我可以……”
- 錯誤識别信息,并具備處理能力:這種情況做好能夠将錯誤的識别結構複述出來,并詢問用戶。比如用戶說的是聽音樂,機器卻識别成了打電話,那麼可以詢問用戶“你是要打電話嗎?”
及時提供幫助:當用戶出現困惑、沒聽懂、沒聽清或者不知道該怎麼說的情況,可以提供相應的幫助。比如用戶說“我沒聽清”,那麼機器可以重複一遍之前說的話;也可能是說出像是”幫助“或”我不知道“之類的話。
四、設計走查
完成一套VUI設計之後,如何知道自己做得對不對、好不好?下面有一些簡單的測試方法:
- 自己念出來:每完成一組對話撰寫之後,自己可以找個獨立空間把它們念出來,因為你很有可能撰寫對話時采用書面語言,所以通過念出每段對話能夠幫你找到表達不合适的地方。
- 找人演練: 找到一些團隊以外的人,按照已經設計好的VUI和他們進行對話演練。對流程多測試幾次,應該就能發現一些問題,例如哪個對話任務完成起來有困難,或是用戶與語音交互的場景中,聽者的感受如何。之後也可以搜集一些主觀反饋,例如他們在哪裡卡住了,在什麼地方感覺不順暢。
- 用模拟器檢驗:如“谷歌的在線模拟器”,輸入對話文字,讓系統運行讀出來。也可以采用訊飛的AIUI平台,搭建技能之後查看效果。做了這些工作之後,你會逐漸發現先自己會越來越能夠掌握撰寫對話的技巧。
除了上述的一些測試辦法,下列走查清單為你提供了一種快速檢查方法,幫助你在産品在上線前确保已經準備好:
最後,VUI不再局限于手機,它已經擴展到智能家居、車載、可穿戴設備甚至更多領域,不同的場景和設備有它們自身的屬性和特征,VUI的體驗設計也需要符合相應的場景和設備。不過,所有體驗設計的核心目标都是易用和帶來愉悅的。
參考内容
[1] Google對話式交互規範指南
[2] Amazon Alexa語音交互設計
本文由 @Rinoa 原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!