tft每日頭條

 > 科技

 > 下一代語音交互

下一代語音交互

科技 更新时间:2024-07-06 00:45:31

市面上對人工智能技術以及語音交互的熱炒和當下以智能手機為主的有屏設備,對語音交互應用甚少的矛盾思考。文章隻試探性的讨論下在有屏設備中,如何更好的使用語音交互這一點。

下一代語音交互(語音交互如何更好的應用于有屏設備中)1

交互,即交流互動,是很多互聯網平台追求打造的一個功能狀态。觸覺、視覺、聽覺 ,這三種感知在早期的人機交互形式中已開始一起出現。在過去40年間,人機交互方式也在随着技術的發展在不斷進化,從最初的單一交互方式到多種交互方式相結合,也是人和機器交流互動的一個演變史,更是機器發展的一個演變史。

機器也從被人類奴役的角色向與人類平權的曆史在不斷發展,就像《西部世界》中的機器人的覺醒以及怎麼與人類共存的問題探讨。在《西部世界》中我們可以看到:機器人和人類的語音對話就是很娴熟的語音交互的方式,但在《西部世界》這個機器人開挂的影視作品中,依然能看到以點觸等手勢交互為主的智能有屏設備的廣泛使用。

從交互設計的角度來思考,不管導演是如何考量,但是語音交互技術的娴熟一定不是為了取代其他交互方式,而是和其他交互方式多元共存。

次元這個名詞我們并不陌生,次元(Dimension)是指未知數的多重指數,更多表示的是維度或者獨立空間;在交互的維度中,我們也可以将交互分為不同的次元:

  • 一次元交互:物理控件操作的交互方式,如鼠标鍵盤交互。
  • 二次元交互:物理控件操作 觸屏手勢相結合的交互方式;觸屏交互方式大家應該很好理解,就好比你在手機上點來點去……在2011年前,市面上幾乎所有的智能有屏設備都屬于二次元交互方式範疇。
  • 三次元交互:物理控件操作 觸屏手勢 語音相結合的交互方式,現在更多的稱之為多模态交互。在智能設備中應用語音交互方式可以說是三次元交互的誕生,這主要是得益于Apple公司在2011年發布的新機iPhone 4s,4s的發布帶來了一個全新的功能——Siri,隻要你“hi~Siri”,你就可以通過語音命令讓iPhone為你服務了。
  • 四次元交互:除了物理控件操作 觸屏手勢 語音相結合的交互方式外,再加上意念交互,當然這屬于未來很久遠的交互方式。那什麼是意念交互?簡單舉個例子,比如:《X戰警》中的鳳凰女——琴·格蕾,她擁有讀取他人意識的精神感應能力,并可按照自己的意念進行控制任何事物,也可以同時讀取很多種意識,同時在另一種人格中可以利用精神控制能力使對手失去意識。

當下我們處于三次元交互階段,未來我們将會處于四次元交互階段,也可能将處于五次元或異次元的交互階段,但是這都不得我們現在妄自揣測。

那回歸正題,我們當下所在的三次元維度下的語音交互如何更好的應用于有屏設備中呢?

筆者對于這個問題的思考源于一個矛盾——市面上對人工智能技術以及語音交互的熱炒和當下以智能手機為主的有屏設備,對語音交互應用甚少的矛盾思考。

古人曰過,解鈴還須系鈴人,那我們先要剖析一下有屏設備,其使用者是誰?其有怎樣的使用場景?其使用時間?其主要的功能?

  1. 有屏設備的使用者——活着的人類
  2. 有屏設備的使用場景——地球為主,其他星球為輔
  3. 有屏設備的使用時間——不睡覺的時候
  4. 有屏設備的主要功能——裝!能裝載app

本文不讨論語音交互的衆多難點,比如:發音要标準、環境要安靜、不能持續對話、不能打斷等,我們隻試探性的讨論下在有屏設備中,如何更好的使用語音交互這一點。

既然讨論語音交互在有屏設備中的應用,就得先說下語音交互和信息交互的不同。

說到語音交互不得不說說科大訊飛這個号稱中國聲谷的人工智能公司的産品,有幸以前在科大訊飛實習過,實習部門是做機器人的。這個機器人最大的特點就是即主打語音交互,也是一個有屏顯的機器人,這也是保證用戶通過聽覺和視覺獲取信息的雙重保障。畢竟語音交互受場景局限很大,在嘈雜的環境下語音識别是極為困難的。

同時,在公共場合下使用語音交互會讓用戶有種失去“私密性”的不安全感。這個機器人專為b端的企業、法院、醫院、銀行等提供解決方案,目的就是為了替代那些重複低能的勞動力。

在科大訊飛這個優秀的AI公司實習,也讓我對人工智能和語音交互有了更直觀和更客觀的認識,個人認為當下人類所做出得人工智能産品還處于“人工智障”階段,但是也要感謝這些優秀的AI公司的努力,讓我們感受到人工智能的未來,人類要做到能和人類正常聊天的機器人真的還有很長的路要走。

實習時基本每天都要對着那台有屏顯的機器人說話,最大的感受就是,語音交互并未和app信息交互和諧共存,語音交互依然還是依附于app的信息交互方式所生存,app信息交互中是很講流程性的,比如:你要在微信中綁定銀行卡,首先你要打開微信首頁➡️我➡️錢包➡️銀行卡➡️添加銀行卡,你要用語音交互需要幾步就能達到任務目标呢?

理論上應該是兩步,你說:“幫我【打開微信】我要【綁定(添加)銀行卡】”,以此對應的有屏設備界面應該跳轉兩下即可。但是,很多智能有屏AI産品依然依附信息交互的流程性,依然沒有擺脫“返回”這一道程序。

語音交互所發出的命令信息必須命中屏幕界面所給出的信息,如果你在【添加銀行卡】頁面,發出到【朋友圈】,那對不起,識别不了。

由此可見,語音交互和信息交互兩大特點:

(1)信息交互特點:線型流程性

下一代語音交互(語音交互如何更好的應用于有屏設備中)2

總結:從A到B必須有遵循線型的流程,在app中的體現就是一張張頁面的跳轉,并且不分iOS還是android系統,所有界面左上角都少不了返回/取消/關閉,這是确保你原路退回的保障。

(2)語音交互特點:點狀跳躍性

下一代語音交互(語音交互如何更好的應用于有屏設備中)3

總結:從A到B隻是兩點一線的距離,點狀跳躍性就很符合語音交互的場景,最極緻的語音交互場景就是人和人聊天的場景,兩人可以從詩詞歌賦突然跳躍性的聊到人生理想,接着你也可以直接跳躍性的去聊明星八卦,隻要一個人發起任何聊天内容對方就會給予相應的回應。

那語音交互如何更好的應用于有屏設備中?

求同存異,語音交互和信息交互的最終目的都是一樣的,但是使用方式卻有所不同,解決語音交互如何更好的應用于有屏設備中的方法其實也很多:

  • 根據不同場景切換兩者的主導權,在語音交互場景下就優先遵循語音交互特點與規則。
  • 使用“插入法”,在特定的app頁面中局部插入語音交互。
  • 建立通用規則,就像iOS中的手勢交互屏幕右滑即是“返回上一級”,語音交互也可建立這樣的通用規則。
  • 點名法,這就需要攻克技術難題,打破信息交互中的層級關系和流程性,将所有功能點平鋪,當你通過語音命令,點到誰的“名字”誰就向前一步。

隻有讓用戶感受到語音交互“兩點一線”的快速與便捷,才能讓更多用戶所接受,不然,語音交互就隻能存活于特定的視力障礙人群中或特定的使用場景下…

本文隻是試探性讨論,歡迎大家交流讨論~

本文由 @黑斑馬與白斑馬的斑 原創發布于人人都是産品經理。未經許可,禁止轉載

題圖來自 Pixabay,基于 CC0 協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved