tft每日頭條

 > 科技

 > 哪款天貓精靈支持免喚醒

哪款天貓精靈支持免喚醒

科技 更新时间:2024-05-17 08:53:14

你應該看過那個視頻吧:有人跑到蘋果店裡大喊一聲"嘿,Siri",一瞬間幾十上百個Siri齊聲"在呢,什麼事",那環繞立體聲效堪比杜比全景聲!

幹這事的人無疑是為了搞笑,但也無形中戲谑了一把所謂人工智能語音助手的一個不足,那就是必須要喊喚醒詞才能進行對話或下達指令。需要喚醒詞喚醒的語音助手們,似乎成了天經地義,但這事現在就被颠覆了。

9月17日,天貓精靈在雲栖大會發布了首個全場景人機交流系統AliGenie 5.0,首次将人臉喚醒、唇動喚醒、手勢操控、語音交互等多種形态的交互方式融合在一起。

簡單地說就是,我不需要再喊一聲"天貓精靈",直接就能跟機器對話了,有時候做減法比做加法更難,AliGenie 5.0省掉的這一步對于人機交互來說是革命性的。

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)1

多模态喚醒首次大規模應用落地

AliGenie升級到5.0後,将唇動、手勢、語音語義等多種形态的交互信息融合在一起,這也就是人機交互領域常說的多模态。

模态,雖然不是我們的日常用語,但從字面意思上其實很容易理解。正如我們有視覺、聽覺、嗅覺和觸覺等,傳遞出的信息就有視頻、圖像、語音、手勢、姿态等,每種形式可以稱作一種模态。

多模态融合的人機交互一直是人工智能研究的熱門領域,但此前更多停留在學術研究層面。而AliGenie 5.0系統已同步落地到天貓精靈今年的三款秋季新品上:天貓精靈CC10電池版家庭智慧屏(以下簡稱CC10電池版),天貓精靈CC MINI智能時鐘屏以及IN糖2智能時鐘音箱。其中,CC10電池版将率先上線多模态喚醒功能,并在10月中旬逐步升級覆蓋CC帶屏系列産品。

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)2

這是多模态喚醒首次大規模應用在消費電子産品上,不管是對阿裡公司,還是整個人機交互技術領域來說,它都具有重要意義。這或許也意味着,很快你對手機、智能音箱乃至整個智能家居發号施令的方式要全面變革了。

當然,變革的前提是,天貓精靈AliGenie 5.0系統所帶來的多模态喚醒體驗像它們宣稱的那樣好。我已對CC10電池版搭載的多模态喚醒功能體驗了一段時間,可以說它确實刷新了我對智能音箱這類産品的使用認知,這種感受不能說是颠覆性,卻新穎又熟悉。

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)3

就像在跟身旁同事說話

新穎和熟悉本是兩個矛盾的詞,但用在CC10電池版的交互體驗上很合适。之所以說新穎是因為,居然我不需要先喊一聲"天貓精靈",它就能直接回應我。

舉個例子,我平時把CC10電池版放在辦公桌一側,寫稿子時想要聽歌了,把頭一轉向它,左下角的天貓精靈便提示"已人臉喚醒,我正在聽……",幾乎就是同時,我對它說"播放音樂",然後就開始放歌了,整個過程就像跟旁邊工位的同事對話一樣,根本不需要多費口舌喊聲"天貓精靈"。

這也是我說它"熟悉"的原因,你想想和它對話就跟旁邊同事聊天一樣,自然的交流,能不熟悉嗎?

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)4

升級到AliGenie5.0後,CC10電池版還支持多種手勢隔空操控,比如對屏幕豎大拇指就能收藏當前播放内容,做個"噓"的手勢,就可以馬上讓天貓精靈靜音,這種很"拟人化"的交流方式讓交互感受更順暢了。

使用過程中我還發現,從側過臉到講出指令,或者舉手做"噓"的手勢,到CC10電池版接收指令做出反應,中間并沒有太多等待時間,整個響應過程是一氣呵成的,這當中也離不開多模态喚醒的作用。

據介紹,天貓精靈的算法專家通過融合視覺識别能力、語音識别能力以及上下文語義,把視覺和語音信息通過深度學習的方式進行融合然後輸入到機器"大腦",進而做出綜合性決策,讓機器"能聽、會看"。

也就是說,開啟多模态喚醒功能後,在盯着機器張嘴說話時,天貓精靈會自動識别出我的唇動、眼神朝向、表情動作,接收語音信息的同時就能直接給出對應的反饋了。

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)5

使用CC10電池版的時候,我也發現,如果我對着CC10電池版時沒有講話,而旁邊的同事在講話,它也不會被誤喚醒,因為這時機器接收到的聲音和圖像信息沒有匹配。而當我在說話的時候,它接收到我的嘴唇動作和聲音是匹配的信息,就會被喚醒并識别指令。

我們在對未來人工智能的暢想中,并不希望看到喚醒-接受指令這種機械的方式,而是全面"拟人化"的交流。當不需要再喊出"天貓精靈"的喚醒詞,就能跟CC10電池版自然交互時,我發現這個智能助手是真的懂我了。

讓每個人無差别享受AI

根據天貓精靈數據,在家庭生活場景下,結合人臉、唇動喚醒和語音自然對話,多模态識别的準确率超過99%。從CC10電池版在我辦公桌旁的這段時間來看,近距離的唇動喚醒成功率是很高的,即使是人聲更嘈雜的辦公室環境,它也沒有被其他人的語音誤喚醒的情況出現。

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)6

事實上,多模态喚醒相比單一的語音喚醒詞能夠更好降低誤喚醒率。在各家智能助手發展的過程中,為了語音喚醒成功率這個指标,算法會把語音感知的靈敏度調整得很高。過高的靈敏度很容易捕捉到漢語裡某些發音相似的音節,因此哪怕是一家人日常閑聊,電視裡播放新聞,乃至三更半夜時,音箱裡的語音助手們都可能突然說話,讓人莫名其妙。

在免喚醒的對話情景下,天貓精靈需要融合嘴唇、語音的動态信息識别,能夠幫助機器過濾掉90%以上的環境背景幹擾信息,反而能夠做到比特定的喚醒詞更高的準确率,同時大大降低誤喚醒率。

唇動喚醒的方式也是此次天貓精靈AliGenie 5.0系統的首創,先提取人講話時的唇動關鍵特征點,經過唇動的分析,當圖像序列和音頻序列能成功匹配時,繼而結合上下文語義綜合判斷出用戶與機器對話的行為意圖,最終喚醒設備。

搭載AliGenie 5.0的CC10電池版,根據生活中常見的"近場、中場、遠場"三類人機交互情景,可以綜合調動多種交互信息來确認我們的交流意圖。近場也就是1米左右的交互情景下,唇動喚醒無疑是最自然的。1-1.5米左右的中場距離下,模拟人們打招呼的形式,對着機器揮手說話即可喚醒,此時也不需要喊出"天貓精靈"。

哪款天貓精靈支持免喚醒(天貓精靈AliGenie5.0系統體驗)7

更遠距離時,直接通過"天貓精靈"喚醒詞下指令也是最拟人化的體驗,未來,天貓精靈還将利用聲紋識别技術來辨别聲音來源的方向、位置,讓語音喚醒的反饋更精準。雖然真實生活場景中,還會受到人臉距離、光線等因素的影響,但AliGenie 5.0在人機交互上無疑已開始一段新的征程。

有了多模态識别的能力,經過一段時間的訓練,未來人工智能助手能把人和聲音及聲音方向、手勢動作都"對号入座",在一個家庭空間中,可以真正認識、分辨出每一位家庭成員,熟知每個人的生活習慣和喜好,并且在任一位置都能與家庭成員自然交流,它與理想中的未來智能助手的樣子已越來越接近了。

許多科幻電影描繪的未來生活,人工智能化身成一個不折不扣的管家,不再是被動的接受命令,而是通過用戶的私人喜好與定制化需求主動提供服務。這個過程的建立就是通過自然語言的交流實現的,之所以它看起來如此美好,正是因為自然交流對于人來說幾乎沒有學習成本。

家庭裡的成員構成複雜多樣,與機器的自然交流還意味着它可以讓所有人無差别使用最新技術。語音對話、唇動喚醒、眼神手勢交流融合的自然交互方式,意味着在技術層面,降低了人們觸達前沿科技的門檻。

網購、移動支付、網約車、外賣,還有人人都離不開的健康碼,技術讓許多人生活變得越來越便利,但有的人卻因為種種原因無法享受到,這不是人或者技術的錯,在改變的過程中,技術需要輔助人們适應變化,而不是跟人對立起來,造成所謂的"淘汰"。

天貓精靈AliGenie 5.0将多模态喚醒的落地,其實就是做了一件看起來簡單但偉大的事:用跟人一樣打交道的模式,為更多人提供前沿科技帶來的便利,讓每個人無差别享受AI。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved