我曾給我外甥和外甥女買過語音機器人-撲閃着兩隻萌萌大眼,配上胖墩墩的mini人物外形,本來以為會深受兩個小不點的喜好,誰知兩小不點在夜裡被機器人吓得之後都不敢靠近。正如Meadows曾提出“恐怖谷理論”:與人類極其相近但不完全相同的事物容易引起人的恐慌,也因這件事引發了我對兒童語音産品的探究。
如下圖:
恐怖谷理論
行業産品研究
簡單總結業内兒童語音機器人做的比較出色的其中三家(并未窮盡,聊表敬意):科大訊飛的阿爾法蛋、狗尾草的公子小白、ROOBO的布丁豆豆。總結有誤之處還請指正。
(1)水平對比分析:下圖部分展示三家公司産品中其中三款産品的定位和交互、展示方式,且得到小結論:
- 主要面向0-16歲人群群體;
- 産品定位主要涉及兒童呵護、兒童教育(早教、學習指導)、生活助理;
- 教學内容基本為早教至初三前教學資源,少量涉及高中教學知識;
- 交互形式主要包括VUI(語音用戶界面)、GUI(圖形用戶界面);
- AI技術包括聲紋識别、ASR(語音轉文字識别)、自然語言處理和對話管理、語音合成、計算機視覺OCR(文字識别)、TTS(文字轉語音識别)、知識圖譜。
(2)垂直對比分析:将同家公司旗下的不同版本的語音機器人産品進行功能對比。
科大訊飛旗下有大蛋、小蛋、超能蛋、金龜子等,四款産品明顯區别:
- 大蛋有屏幕和攝像頭,可以滿足比如視頻通話、安全監控、聲控拍照等關于視頻方面的操作需求,其它三款沒有。
- 大蛋和超能蛋是語音喚醒,小蛋和金龜子蛋是按鍵喚醒。
狗尾草旗下有公子小白成長版I、公子小白成長版II、公子小白青春版、公子小白Pro等,旗下産品比較清晰地劃分目标群體用戶,成長版II主要針對嬰幼兒,成長版I主要針對學齡前至少年期,青春版主要針對青年期,Pro版主要針對成年期。
成長版和成長版II的明顯區别:
- I版有記憶調教,II版沒有,考慮學齡前至少年期兒童群體心智已較成熟且口頭表達能力較流暢;
- I版為語音喚醒,II版為按鍵喚醒,考慮鍛煉兒童動手能力和降低嬰幼兒因口齒不清喚醒機器人的難度。
ROOBO旗下有布丁機器人1S、布丁綠豆、布丁迷你豆、布丁豆豆慧讀版等,區别在于:
- 布丁綠豆是1S的版本升級,增加了觸摸操控 屏幕表情,雙插電充電 升級電池、記憶功能、學習報告、視頻功能、豐富了教學資源;
- 布丁豆豆慧讀比綠豆增加了繪本讀書器功能;
- 迷你豆比綠豆減少屏幕,增加微聊和胎教教學内容。
小結思考:“是否需要為兒童提供屏幕動态視頻展示功能”、“是否需要針對不同年齡段兒童制作不同功能版本的機器人”是我在了解行業産品後發現的有趣探讨點,在接下來“心理學角度思考:兒童語音機器人VUI設計”系列會進一步涉及個人觀點。
心理學角度思考:兒童語音機器人VUI設計(早教篇)
第一步:确定目标用戶群體
意大利著名的“蒙特梭利教育理念”提到:寶寶在6歲前不同階段對語言、動作、細節、程序、書寫、閱讀等特别敏感,該段時期稱為“敏感期”,抓住該段時期讓孩子從無意識狀态過渡到有意識狀态,并建立起寶寶所特有的心理結構和語言表達機制。
0-6歲孩子八大敏感期如下:
本篇主要研讨早教語音機器人VUI設計,目标用戶群體為0-6歲嬰幼兒群體。
第二步:樹立VUI人格特質,選取符合産品形象的音色
Cathy Pearl在《語音用戶界面設計》一書中曾提到:
“用戶會将你的VUI人格化,無論你是否有意讓用戶這樣做,他們都會認為VUI具有某種人格特質,最好做法是你自己在設計時就确定好VUI人格。”
Siri的高冷女性形象、微軟小冰的賣萌逗趣小可愛、小愛同學的青春二次元美少女便是主動打造VUI虛拟角色、樹立不同人格特質的做法。
而0-6歲嬰幼兒最需要家人陪伴,因此機器人形象樹立為年輕溫和的寶爸或寶媽,由于不同家庭寶爸寶媽陪伴孩子的時間各異,可構建兩種形象版本讓用戶切換選擇,比如:某戶家庭中陪伴孩子時間比較少的是爸爸,用戶可以選擇“寶爸”版本,讓語音産品填補寶寶缺乏的來自父母某方的陪伴。
而機器人語音音色的選擇需要和産品形象保持一緻,需要溫和不嚴厲的年輕音色。目前科大訊飛已經推出聲音複刻技術在小範圍群體使用,往後若聲音複刻技術達到推廣應用水平,或許可讓用戶通過複刻自身聲音來自主定義機器人語音音色,使得寶寶更真切感受到家人的陪伴。
第三步:明确産品定位,構思功能,繪制VUI流程圖
流程圖在IVR(互動式語音問答)設計中用于展示VUI系統所有可能發生路徑的圖示,在繪制流程圖前要先根據産品的定位和目标确定産品功能。
- 産品定位為:早教 陪護。
- 産品目标包括三項:開發智力、關注心理健康、保障安全。
Part 1 : 産品功能考慮細節
屏幕視頻功能考慮:
針對早教是否需搭配動态視頻展示這個問題,有的機器人産品考慮保護孩童視力不建議增加動态視頻功能。
個人觀點是:根據“蒙特梭利教育理念”提到的0-6歲寶寶的“感官敏感期”,4個月左右時,寶寶大腦中負責聽覺、語言、嗅覺的颞葉和枕葉會變得更加活躍,色彩鮮豔、情節簡單的拟人卡通視頻會對他們更有吸引力,且在有助在其不識字狀态幫助理解學習。感官的全面調動也有助于開發寶寶智力。
互動遊戲功能考慮:
同時,“蒙特梭利教育理念”提到:孩童6個月後會進入咿呀學語模仿階段,9個月左右進入語言理解階段,13個月左右可進入以詞帶句教育階段,下圖舉例了3-6歲孩童的語言能力發展目标。
此階段要讓孩童多與環境中對應的事物互動并鼓勵說出來、培養孩童的專注力和聽力等,這種情況下趣味性的互動遊戲便不可或缺。
引用《蒙特梭利:兒童語言能力訓練》
虛拟表情動态功能考慮:
美國著名的心理學家丹尼爾.西格爾在《全腦教養法》中提過“印證式傾聽”,而印證式傾聽的前提是讓對方感受到自己是在用心了解其觀點。孩童渴望得到關注和聆聽,因此當機器人跟寶寶在溝通對話時,搭配上虛拟表情狀态,表達對溝通者的關注和喜怒哀樂情緒的共情。
狀态追蹤監護功能考慮:
如果要打造寶寶狀态追蹤監護功能,機器人硬件最好設計為可移動 室内空間定位,搭配計算機視覺技術。家長可在離家時開啟寶寶追蹤監控,通過人物識别确定追蹤對象身份而追随其活動,重點識别是否進入危險區域和人體姿态識别其是否出現摔倒等狀況。打造該功能時産品方需要承擔責任風險和考慮孩童抵觸心理,以及遇到像掃地機器人無法抵達家裡某些空間的問題。
磨牙功能考慮:
寶寶6歲後進入探索事物的萌芽期,把抓到的東西放入嘴裡啃咬是他們探索世界、尋求安全感的一種方式,且長牙階段的難受使得寶寶更頻繁咬東西。弗洛伊德的兒童心理學理論将該階段稱為口唇期,阻止孩童啃咬東西容易導緻孩童長大後缺乏安全感和咬手指等壞習慣,因此要主動給寶寶提供安全衛生耐啃咬的産品。
Part 2 : 确定總産品功能(以下功能隻是部分舉例)
【早教功能】
- 英語動畫視頻教學 中英互譯;
- 故事詩歌等中文視頻教學;
- 雙語語言遊戲;
- 知識百科(兒童百科知識 育兒知識)。
【陪護功能】
- 關注心理健康的AI對話 虛拟表情動态;
- 兒童歌曲;
- 微聊 雙視頻通話 狀态追蹤監護;
- 童鎖 防近視屏幕;
- 定時提醒;
- 家居設備中控;
- 防摔耐磨 安全磨牙材質。
Part 3 : 繪制VUI流程圖
VUI流程圖設計關注點如下:
- 設計的可發現性:讓用戶知道IVR系統都能為其做什麼;
- 設計的完整性和可退出性:确保每個狀态豆包含一組通用組件,如:主菜單、幫助、操作、重複、退出;
- 根據用戶使用時間間隔,區分新用戶和老用戶的提示設置;
- 針對異常情況的應答處理;
- 每個狀态的記憶選項不超過7個,當記憶選項過多時采取GUI VUI結合的交互方式。
【第一種VUI流程圖】
- 優勢:每個分支用戶記憶選項比較少;
- 劣勢:用戶交互步驟較為繁瑣。
【第二種VUI流程圖】
- 優勢:用戶交互步驟比較簡潔;
- 劣勢:每個分支用戶記憶選項比較多,需要搭配GUI進行交互。
第四步:兒童對話場景設計思考
Part 1 : 語音對話技術實現原理
(該圖出處不明确,知道原作者請告知,我加以注明)
以一張圖講述語音交互系統實現原理,幫助對語音交互理解,在語音對話技術實現過程中的需要注意的事項:
- 實現多輪對話和長依賴關系,解決對話問題;
- 處理一詞多義,語言消歧、否定詞問題;
- 對用戶情感理解解析,對不同狀态下語氣詞表示含義的識别和反饋;
- 良好的端點檢測功能引擎,如何更好實現語音降噪;
- 如何保障用戶數據隐私和數據安全不洩漏。
Part 2 : 調研常見情景,構建對話邏輯,設計用戶指令集
面對紛繁複雜的用戶使用情景,可以區分使用人群,了解不同人群常見使用情景而重點梳理構建對話邏輯,在此要考慮到的是:兒童早教機器人的用戶群體不僅有孩童,還有孩童的家人等成人群體。
本次選取用戶使用中文早教功能來構建對話邏輯:
針對中文早教的用戶使用場景,<course>、<grade>、<type>是設計用戶指令集時設置的槽位(slot),下圖列舉部分用戶指令:
Part 3 : 通用的語音對話設計注意事項
根據Cathy Pearl在《語音用戶界面設計》的理論,彙總語音對話設計通用注意事項:
- 對話的親切自然、簡短突出要點,加入基本對話禮儀,不要責怪用戶,語速适中;
- 設置自然的啟動和結束對話模式,利用啟動效應讓用戶知道提問進度;
- 針對複雜問題,給出答案格式實例;設置更好的問題結構,避免問到一半,用戶已搶先回答出不規範的答複;
- 構建N-Best列表,根據可能性和置信度排序問題答案,解決部分語音識别錯誤問題,兼容用戶更多不同形式的回複;
- 适當地給用戶反饋,包括給用戶确認、系統出現等待時間時候等的反饋;
- 區分無語音超時(NSP)和語音終止超時來設置語音超時時間,如确定用戶說完喚醒詞後無語音超時時間,一般建議為10s;
- 允許用戶打斷語音,可用“魔法詞”作為打斷語音的暗号;
- 增強錯誤提示,進階錯誤行為提醒;
- 根據不同置信度采用語言或非語言的确認方案;
- 處理微妙的話輪轉換形式,比如:“嗯嗯”;
- 增加聲紋識别,讓IVR系統認主。
而面對兒童群體,還需要注意兒童群體存在發音口齒不清和吞音、尾音過短等問題,特别是有的孩童在3-6歲期間會出現短暫的口吃、失語症問題,要如何設計N-Best列表?
Part 4 : 在通用設計原則基礎上,結合兒童心理學,設計對話應答腳本
個體心理學派的創始人阿爾弗雷德.阿德勒在《兒童人格教育》一書中曾提到:兒童心理問題包括自卑、因心理補償而出現的膨脹野心、缺乏安全感、懶惰、焦慮、孤僻、依賴等。
此部分思考針對孩童陪護功能,針對孩童缺乏安全感的心理問題,結合丹尼爾.西格爾的全腦教養法理論來設計對話應答腳本。
而丹尼爾.西格爾在《全腦教養法》提出:左腦是邏輯、語言的、求實的,而右腦是情感、非語言、經驗化的。單獨依賴右腦會引起感情泛濫、依賴左腦會引起情感荒蕪。當孩童遇到不好經曆而拒絕表明傷痛,這樣的情感處理方式是退回左腦處于情感荒蕪狀态,如果不正确梳理容易造成孩童長大後缺乏安全感和對對應事物産生恐懼心理。
很多人會采用避開談論孩子遭遇的傷害,而正确的做法是引導孩子複述故事,幫助孩子整合左右腦,通過調用右腦理順細節,然後引入右腦重訪情緒,讓孩子正面其内心的擔心、害怕,随之讓孩子意識到其在整個過程并非孤立無援,意識到問題已經解決過去。或者通過分享經曆故事安撫情緒。
錯誤做法
正确做法
以下舉例針對兒童遭遇不好情景或缺乏安全感時的對話腳本(script):
門外漢的膚淺觀點暫告一段落~
Thanks!
本文由 @唐吖年 原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自網站
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!