8 個月時間,在天貓精靈 X1 智能音箱從發售到銷量 200 萬後,阿裡巴巴人工智能實驗室舉行了 2018 年的第一場發布會(3 月 22 日),而這一次發布的核心産品,有點出乎大家意料。
用一個 49 元的手機支架,和幾乎人人都有的智能手機,天貓精靈進行了一次變身,不但變得比以前更加聰明,還擁有了全新的「多模态感知系統」。作為 2017 年的行業黑馬,本次發布會上讓人激動的這件新品不再是硬件,而是重量級的系統升級——AliGenie 2.0,我們不妨先來看看這段官方視頻演示:
AI 變奏曲:智能音箱從能聽到會看
毫無疑問,當天發布會上的主角正是阿裡巴巴人工智能實驗室的 AliGenie 2.0,它加入了最新的 AI 視覺系統,并嘗試去融入更多情感操作。阿裡巴巴人工智能實驗室負責人淺雪稱之為「天貓精靈火眼」。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本從原本能聽能說,變成了如今的 能看能聽能說 。
能看是系統升級的重點,「從觸覺到聽覺,再到視覺,最後是情感反饋,多模态交互是 AliGenie 2.0 的核心」,對于此次系統升級,淺雪認為它最大的不同是人機交互的變化,尤其是因此産生的與衆不同的用戶體驗。
n
阿裡巴巴人工智能實驗室負責人 淺雪
搭載「火眼」的天貓精靈,在原本的天貓精靈 X1 上增加了一個手機支架,通過把手機連接到天貓精靈 App,手機屏幕出現了一隻可以交互的「天貓」,通過手觸摸,它可以簡單和人互動。
這隻「寵物貓」擁有 AI 識圖能力。依靠手機前置攝像頭,天貓精靈有了能「看懂」周圍事物的「眼睛」,它可以識别 2D 和 3D 信息。具體來說,有三個重要能力加入。
第一,當你手拿兒童故事書,或者識字卡靠近,詢問天貓精靈「這是什麼」時,它可以「看到」并立即為你朗讀卡片和故事書的内容。
其次,通過連接阿裡健康的數據信息,天貓精靈有了「判斷」藥品的能力,可以迅速識别 40000 種中國家庭常用藥。當你手拿藥品盒子在手機攝像頭前詢問時,這隻「貓」會手拿藥盒,告訴你它的名稱,功效甚至有效周期。
n
n
第三,同時也是最讓人驚訝的能力,天貓精靈具備了基礎的 3D 圖像識别的能力。當手持蔬菜、水果等物品靠近攝像頭詢問時,它可以很快告訴你這是什麼物品。
和前兩種的 2D 圖像識别不同,3D 識别物體要做到的是不論你用何種角度拿着物品靠近攝像頭,它都能判斷出物體是什麼,按照産品總監釋空的解釋,這(難度)要比 2D 識别大得多。
因為 3D 識别不僅在考驗系統對周圍環境光線的适應、同時也要對你手持物體角度進行準确把握,還要有足夠的數據信息可以搜尋出物體。比如在你拿着一個已經發黴變色的西蘭花時,要想被識别出來,就必須知道這還是西蘭花,這對于機器來說并不容易。所以目前,天貓精靈能識别出的蔬菜水果不多,隻有幾十種,但這種能力卻對于将來識别更多物品(包括商品),甚至于人臉都具有重要意義。
此外,發布會很重要的一部分在于天貓精靈的邊界擴展,看到前面幾個功能也許有人能猜到,閱讀故事書,教人讀書寫字,這是面向兒童的能力。而幫你識别藥品,告訴你藥品功效,再告訴你還有多久會過期,這是更貼近老人的能力。
因此天貓精靈不但聯合了國内 12 家少年兒童出版社,對市面上 117 套兒童讀物以及繪本進行了有聲讀物化,還将通過馬雲公益基金會将天貓精靈帶到更多偏遠地區,為當地學校教育以及兒童陪伴問題提供新的解決思路。
n
n
盡管發布會還另外帶來了阿裡巴巴人工智能實驗室的路由器、投影儀以及迷你版天貓精靈,但最核心的主角無疑就是全新升級的 AliGenie 2.0 系統。這不由得令人好奇,當國内外廠商紛紛升級了帶屏幕的智能音箱時,為何阿裡巴巴選擇了這樣一個「非常規」的升級方式?不是通過賣新的産品,而是用 App 和用戶自己的手機,這樣一個更加「軟着陸」的方式來使用新産品(也是新系統)呢?
殊途同歸的多模态交互
一個現狀是,帶有屏幕的智能音箱價格與人們期望存在差距。市面上帶屏幕的智能音箱,少則近千元,多則數千元。可以說在目前階段,當用戶考慮用數千元買一個帶屏幕的智能音箱時,他們會猶豫,并會和一些其它成熟産品(如 iPad 等)比較其是否值得?
這也是擺在包括淺雪在内的團隊成員面前同樣的問題,因此需要考慮的就是:如何用極低的成本,盡量做到現階段能實現的最優體驗?團隊内部對此曾出現過分歧,用釋空的說法,最終他們認為,由于目前階段帶屏幕的智能音箱産品不具有足夠的議價,因此就做出了用手機來完成這些的方案。
這讓人想起了谷歌在 VR 推進早期曾大力推行的産品「CardBoard」。
n
紙闆做的廉價 VR 眼鏡——Google CardBoard
在 VR 産業剛剛起步階段,市面上 VR 産品不但價格貴,體驗也并不優秀,于是谷歌采取了用廉價紙盒做 VR 眼鏡的策略,滿足了大家在好奇期的想法,并成功向大衆普及了 VR 這一概念,這種方式不得不說是有其必要性的。
「我們最關注的事情是如何讓每個用戶用最低的成本入門就能完全體驗。」淺雪說,這種觀點最終指向的目标是給每個人做有用有價值的人工智能,所以嘗試出這樣的方案在意料之中。
但在大方向上,智能音箱不應該僅僅隻有語音交互,應該是語音、視覺、情感多模态交互的觀點,這卻是 AliGenie 系統,乃至整個智能音箱領域目前達成的一個基礎共識。
的确,智能音箱優點很多,但嘗試過的用戶都會認為它不夠完美,聲音交互的特性讓它在很多場景中不夠靈活,而要解決這個問題,利用屏幕也許是一個途徑,今年開年來,伴随 CES 2018 展會,我們見到了國内外衆多帶有屏幕的智能音箱,谷歌甚至組建了一個「Smart Display」聯盟,想要讓這一趨勢迅速蔓延開來。
n
從左到右,LG、聯想、JBL 的 Smart Diaplay 産品n
在淺雪看來,阿裡人工智能系統 AliGenie 2.0 系統升級,它的「能力比一塊屏幕更重要」。目前階段下,通過一個 App 和手機就能體驗到的事情,既能讓用戶擁有更好的心理預期,又能在吸取經驗進一步打磨未來産品,這樣的嘗試能讓更多用戶理解,有了屏幕交互的智能音箱不同于 iPad,語音控制和屏幕觸控也不是互相替代,而是互補關系。
一旦有了這種體驗,大家就會發掘出自己真正需要的到底是怎樣的智能音箱。如發布會現場演示的功能一樣,教育兒童,可以通過看到卡片和圖書來給孩子講故事;幫助老人,可以通過看到藥品盒子就說出功能功效和截止日期。這種輕度體驗能在生活中慢慢培養人們對于智能音箱的新的認知。
如果說 2017 年是國内智能音箱競賽元年,那麼站在賽道上的阿裡巴巴無疑通過雙 11 的 100 萬台銷量成為了行業黑馬。而随着 AliGenie 2.0 的推出,2018 年人工智能産品将更具擴展性,多模态,讓人更自如的交互無疑将成為接下來各大廠商關注的重點。(編輯:Rubberso)
本文來自極客公園,創業家系授權發布,略經編輯修改,版權歸作者所有,内容僅代表作者獨立觀點。[ 下載創業家APP,讀懂中國最賺錢的7000種生意 ]
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!