中國計算機界一年一度的頂級盛會 —— CNCC2021( 中國計算機大會)将于 12 月 16-18 日在深圳拉開帷幕。InfoQ 極客傳媒已正式成為 CNCC2021 的戰略合作媒體。作為合作的一部分,《InfoQ 大咖說》與 CCF 聯合推出了高端訪談欄目《技術風雲 | 對話 CNCC》。
《技術風雲 | 對話 CNCC》高端訪談欄目将以直播對話的形式,從縱覽計算機發展的視角出發,特邀來自 CNCC2021 的頂尖專家學者、科技企業的技術領袖,圍繞 AI、數字化轉型、計算 、雲計算、開源、芯片等前沿技術展開廣泛探讨,帶來學術、技術、産業等全方位的深度解讀,推動計算領域創新技術更廣泛的傳播、讨論和變革,幫助 IT 從業者開拓視野,緊跟時代。
語音助手被認為是下一代人機交互的入口,近年來,國内外科技公司競相入局。今年 2 月,OPPO 小布助手的月活突破 1.3 億,成為國内首個月活用戶數破億的手機語音助手。這個數字背後,有什麼高增長的秘訣,有什麼樣的技術力量作支撐?
10 月 25 日,InfoQ 和 CCF 聯合推出的大咖說欄目《技術風雲 | 對話CNCC》第 4 期直播開播。本期大咖說,我們邀請到了 OPPO 高級總監萬玉龍,來跟我們聊聊 OPPO 小布助手的技術創新與應用實踐。
以下内容節選自當天的分享,InfoQ 做了不改變原意的編輯:
OPPO 智能助手“小布”技術探秘InfoQ:非常感謝萬老師的到來。最近幾年智能語音助手發展的熱度很高,國内外大廠都希望能夠搶占智能語音交互這一個流量入口。那麼,對于 OPPO 來說,推出小布助手的初衷是什麼,OPPO 對小布助手的定位是什麼,對它的發展有怎麼樣的期待和目标?
萬玉龍: 小布助手是搭載在 OPPO、Realme 和 OnePlus 這三大 OPPO 品牌上的智能助手産品。
我們推出小布助手的初衷是,首先希望為 OPPO 萬物互融新生态建設服務,成為關鍵的戰略控制點。我們希望依托 AI 技術,基于數據智能驅動人機交互的用戶體驗不斷升級。
小布助手的定位不隻限于語音助手,目前已經包含了語音、指令、建議、識屏和掃一掃 5 大能力,是人機交互最直接的信息媒介。我們希望通過小布助手為用戶提供跨終端、全場景、智慧有度的服務體驗。
InfoQ:與友商相比,小布的差異化的優勢在哪?
萬玉龍: 同友商相比,我認為小布助手最大的差異點在于發展速度。
OPPO 是最晚推出智能助手産品的,但是最早實現月活破億的。截止目前為止,小布助手已經累計搭載了 2.5 億設備,月活用戶數突破 1.3 億,月交互次數達 20 億。
我們的技術研發投入持續增長,成果豐碩,比如小布助手的語義理解算法在行業最權威的中文語言理解測評基準上持續處于第一梯隊的位置,同時我們也在今年獲得了由中國信通院組織的安全性、可靠性和隐私性的可信 AI 證書。
InfoQ:小布助手的整體技術架構是怎樣的?目前叠代了多少版本?有哪些有代表意義的功能點?
萬玉龍: 小布助手的整體技術架構同傳統智能助手類似,包含了端和雲的計算單元。其中端側包含音頻采集、聲學信号處理、人聲檢測、聲紋識别和語音喚醒等語音算法模塊,同時端側也部署了指令、推薦等部分能力模塊。雲端則包括語音識别、語音合成、聲紋屬性識别、語義理解和對話管理、知識圖譜、推薦建議等對話式 AI 能力,同時也包括聽歌識曲、音樂理解生成等創新功能模塊。
從 2018 年底推出小布助手前身 Breeno 語音到現在,短短三年時間我們累計叠代了 40 多個版本。
最近半年我們推出了一些重要更新,主要圍繞能力拓展和交互模态升級兩大方向。能力拓展方面,小布助手在語音助手基礎上新增了識屏、掃一掃、主動建議、視頻通話等能力,更多維度的為用戶提供智能服務。同時,在最近一次叠代中,我們推出了小布虛拟人,這也是業界首個基于虛拟人多模态交互的手機智能助手。
InfoQ:一些其他廠商也推出了自己的虛拟人服務,與之相比,OPPO 發布的虛拟人有哪些區别呢?
萬玉龍: 小布虛拟人第一版實現了天氣播報和新聞播報這兩個垂直場景的落地,這兩個場景更多側重于信息的反饋表達,能更加體現虛拟人的交互價值。
在技術層面,我們在傳統語音交互技術基礎上針對天氣和新聞播報場景做了特定意圖的優化定制,同時分析理解所需播報内容文本,生成對應文本所需的動作、表情和嘴形,基于 AI 驅動和智能捏臉等技術生成虛拟人的容貌、表情和動作等,最終将語音合成的音頻和虛拟人的視頻進行時間戳對齊融合,實現最終的小布虛拟人産品形态。
與友商相比,小布虛拟人的應用場景和服務用戶群是不一樣的。小布助手首先是智能助手,已經擁有 1.3 億的月活躍用戶,我們會基于線上真實用戶的需求分析做體驗升級,并結合用戶的個性化信息給予用戶更貼心和個性化的交互體驗。同時,小布也不僅是智能助手,我們希望小布能成為用戶在數字世界裡的朋友。
面向未來,我們還會為小布虛拟人提供更加個性化定制能力,逐步開放喚醒詞定制、發音人定制、形象定制、性格定制、内容服務定制等開放能力。
目前,我們首先希望能夠允許開發者為小布定制更多場景所需的虛拟人,讓開發者幫助我們同億萬用戶建立技術橋梁,搭載到更多智能設備上。比如說在電商場景定制一些具備品牌特色的帶貨主播虛拟人,在天氣場景定制具備地域特色的天氣主播等。目前這些平台能力正在開發中,未來将逐步面向開發者和用戶開放。
InfoQ:多模态交互被認為是智能語音交互領域未來的發展趨勢。那麼在多模态的融合交互方面,小布助手團隊哪些研發進展?
萬玉龍: 多模态融合交互技術分為信息處理和信息表達兩個層面。
在信息處理層面,小布已經包含了五大能力,其中識屏和掃一掃融合了視覺圖像算法,形成了多模态解決方案。在信息表達層面,虛拟人本身就是多模态表達技術的嘗試,我們希望借助表情、動作、嘴形等方式讓人機交互體驗變得更加自然,讓信息傳達效率更高。
InfoQ:在情感分析方面,用戶在跟智能語音助手對話的時候,它能感知用戶的情緒變化,并做出一些反饋嗎?
萬玉龍: 情感分析是非常大的話題,在行業裡,這也是比較難的問題,背後涉及多模态技術的融合。通常需要将圖像、語音、文本等信息識别結果融合在一起來判斷用戶交互時的情感,并基于用戶情感實時調整交互策略。
小布嘗試過根據用戶的請求文本分析用戶當前的情緒狀态。比如說用戶表達一些與孤獨、難過相關的文本時,我們會及時理解用戶當時的心情,給予相應的安慰。有些用戶的情緒波動比較大,他們表現得非常憤怒的時候,我們會基于文本分析,嘗試通過轉移話題去平複用戶的極端情緒。
我們後續希望基于聲學特征分析,結合聲學和文本的信息更好地理解用戶。比如 Apple 最近申請的一項專利是可以根據用戶發出語音請求的音量,實時調整回複用戶時的音量,也是類似思路。
更長期來說,當用戶習慣與智能助手面對面溝通後,也可以結合視覺信息去更深層地了解用戶的情緒。比如說可以基于攝像頭判斷用戶當前的表情,看他是不是有皺眉,有憤怒的表情等,并給出相應反饋。Google 已經在做類似嘗試,是基于用戶雙眼的聚焦判斷用戶是不是真的在跟智能助手對話,我覺得這類技術融合是大的趨勢。
剛才提到轉移話題,我們會根據後台大量的人和機器閑聊的對話語料,通過搜索式閑聊匹配得到一些可能引導用戶進入下一個話題的方式,将用戶引導到可能讓用戶緩解情緒的另一話題。比如嘗試給用戶講個笑話,或者推薦一些小遊戲等等。
“手機 IOT”廣泛落地,小布助手月活已突破 1.3 億InfoQ:作為一款語音交互産品,小布助手在 OPPO 的 AI 戰略中處于怎樣的位置?
萬玉龍: 在 OPPO 的 AI 戰略裡,小布助手是最重要的關鍵點之一。
随着大家生活逐漸變得更加複雜,時間更加碎片化後,智能助手可以幫用戶處理很多事,縮短用戶和服務之間的路徑。比如說可以通過一句話直接查詢天氣、顯示健康碼等,而不需要單獨打開一個 APP。
小布助手希望讓用戶跟服務之間的實現路徑越來越短,讓用戶盡可能“偷懶”,我覺得這是智能助手真正能夠體現價值的點。
InfoQ:考慮到用戶體驗指标,有哪些指标可以衡量小布助手的準确度?
萬玉龍: 小布助手面臨的識别場景是非常複雜的,因為手機經常會在嘈雜的環境中使用,會有很多無效音頻。對于用戶來說,無效音頻識别不好或者沒有識别到,對需求滿足度來說影響不是特别大。
為了評價用戶體驗,我們會分析用戶線上的有效音頻實際錄入的技能領域和場景,構建不同的場景測試集以及領域測試集,進行分析評估。
從評估結論看,我們在通用的識别率上還是滿足了大量用戶的實際需求的,但是在閑聊這樣開放的場景上還是存在一些小問題,希望能夠在未來做更多提升。
InfoQ:應用落地方面,OPPO 小布助手包括智能家居嗎?小布助手目前還在哪些場景有應用?
萬玉龍: 智能家居目前的核心設備是智能音箱。
OPPO 在智能音箱單品上走得相對較晚,但在智能家居場景我們也有一些嘗試。比如 OPPO 電視就支持語音交互,一些可穿戴設備也支持交互。
OPPO 強調萬物互融,之所以是“互融”而非“互聯”,是因為我們強調用戶在多終端的體驗是無縫銜接的。小布助手是 OPPO 萬物互融戰略下最為關鍵的角色之一。ColorOS 是我們多設備的最底層操作系統,我們在底層也實現了一些多設備協同智能的能力。比如我們可以通過手表、手環查詢手機的位置,找不着手機的時候可以讓手機發出聲音等等。未來我們希望能夠根據用戶對于智能場景的需求,不斷調整我們的戰略方向。
InfoQ:小布助手現在在哪些行業有應用,OPPO 在選擇這些行業的時候有沒有一些特别的考慮?針對專業性比較高的領域(例如金融)有哪些經驗教訓?
萬玉龍: 小布助手目前還是圍繞着 OPPO 智能設備的 C 端用戶在做産品叠代,我們更多關注用戶體驗本身。
我們會基于線上一些沒有被滿足的請求的分析,不斷優化我們的領域技能。其中有一些會涉及跨領域、跨應用調度的操作,比如說我們希望通過小布直接滿足用戶的導航需求等。
在行業選擇上我們沒有特别的偏好,還是基于用戶線上的需求分析去做針對性優化。
小布作為手機智能助手,本身滿足的很多需求不是像金融這種專精領域的需求。它更像全能型助手,需要滿足用戶更泛化的需求,不像導航或者金融類 APP 等是專家型助手,可以很好的滿足垂直領域的需求。
我們中間也踩過一些坑。比如用戶希望小布完成導航需求時,需要調起導航 APP 聯動,之前跟導航 APP 聯動時,隻是把一些識别到的導航意圖分發給導航 APP,讓導航 APP 去執行對應導航任務。但有時導航 APP 會存在異常情況,拿到指令後沒辦法很好地執行完成,用戶需求并沒有被滿足。後面我們在跟三方 APP 聯動時也會關注他們的異常情況,來保證用戶端到端體驗。
InfoQ:市面上的智能助手琳琅滿目,很多用戶在選擇的時候可能會有困惑,看來看去覺得各家都差不多。您認為如何打造出一款“出圈”的智能助手?
萬玉龍: 智能助手服務的對象是用戶,還是要回歸我們服務的用戶本身。
每個智能助手所面對的用戶群和所涉及的場景不太一樣,比如說智能音箱的用戶更多是在家裡聽歌,或者查天氣、定個鬧鐘等需求,不太會涉及到用戶日程管理等。
而小布的用戶還有需求做一些閑聊、日程管理、信息查詢這樣的技能需求。我們不僅要滿足好用戶主動提出的一些需求,也要充分了解用戶,通過主動服務的方式來給用戶更加智能的體驗,真正實現我們期望中的“随身随地的智能助手”這一目标。
同時随着小布的情商不斷提高,不少用戶會把小布作為情感寄托,去和小布聊一下不太願意跟身邊人去聊的話題,類似虛拟陪伴、虛拟戀人這樣的定位。如何讓這類用戶的體驗能夠變得更好,也是我們需要努力的方向。當然未來是不是可以通過這種方式去出圈,我覺得不那麼重要。最終還是要回到說,我們到底在滿足用戶,或者說為了用戶的體驗去做哪些事情。
InfoQ:您提到 AI 虛拟戀人也是一項挺有意思的功能,在這方面,小布會繼續做一些嘗試嗎?
萬玉龍: 肯定要去嘗試的。之前有些創業公司也在做這種虛拟男友、女友,隻不過背後很多都是真人。對于用戶來說,如果機器能夠做到真人的交互體驗,那麼對方是真人還是機器人不是那麼重要。用戶無非就想找到渠道滿足情感寄托的需求。小布有這麼多用戶,也會往這一方向去做嘗試。如果有朝一日 OPPO 手機用戶在找不到情感寄托的時候想到小布,我們的目标也就達成了一半。
InfoQ:如果說用戶把小布當成朋友去傾訴,會不會有隐私問題?
萬玉龍: 談到隐私風險,大家無非就是關注我們會不會拿用戶的數據去做一些不好的事情。在當前,AI 系統的确需要基于真實數據來進行模型叠代優化,這是當前的技術瓶頸。
但同時我們是非常重視用戶隐私的,在數據标注時,會把用戶敏感信息相關字段全做脫敏處理,為用戶隐私安全保駕護航。
同時在技術方面,我們也在嘗試基于大規模無标注數據去做模型訓練,用非常少量有标注數據做模型優化叠代,現在已經有一些進展。未來我們希望能夠做類似嘗試,更好的保障用戶數據隐私安全。
InfoQ:現在一些用戶擔心智能助手可能會對個人信息安全帶來威脅,有數據洩露的隐患,用戶擔心的這些問題,在行業裡是否真的存在?
萬玉龍: 我覺得是不存在的。首先,像 OPPO 這樣的公司是跟歐盟一些公司合作的。歐盟 GDPR 規定裡有很多條例會要求我們在采集用戶數據時要跟用戶簽署隐私協議,同時在數據存儲、處理和删除等方面遵循很多條例。
同時,行業内在數據存儲、标注等工作上也有很好的流程規範,避免用戶隐私相關數據被洩露。因此我覺得用戶可以放心這一點。
InfoQ:對話式人工智能發展的一個趨勢是向定制化方向發展,通用技術越來越強,但與此同時人們的需求也越來越個性化,如何看待這種矛盾?但如果提供供定制化的服務,研發投入必然增加,如何解決這個問題?
萬玉龍: 我認為是沒有矛盾的。首先從通用走向個性化定制是大趨勢,這是服務粒度的問題,是從粗粒度到細粒度的過程。
目前各大廠都在嘗試通過千億、萬億級參數量的大模型優化語音識别、對話理解、知識問答等任務的效果。同時在大模型不斷研發的過程中,我們還是希望去覆蓋更多的邊緣場景。
回歸到個體用戶來說,永遠存在一些大模型解決不了的任務。比如說用戶要用智能助手打某個聯系人的電話,通用模型很難匹配到用戶通訊錄裡面對應的人名。針對用戶通訊錄的識别就是典型的個性化任務。這本身不是矛盾的事情,而是的的确确存在的需求。
在研發資源比較有限的情況下,我們首先還是會專注于當前比較高頻、高優先級的用戶需求優化。同時我們會根據服務的用戶群體去做分層優化,判斷哪些需求對于用戶來說是優先級更高的,進而逐步滿足更多用戶的個性化需求,逐步實現所謂的千人千面,終極目标是希望為每個用戶打造獨一無二的智能助手。
InfoQ:很多人在使用智能助手時會覺得它還沒有那麼智能,甚至有的時候還覺得有一點智障,達不到預期。那麼你怎麼看這個問題?
萬玉龍 : 我覺得這是定位和期望兩方面因素導緻的。
首先,當我們的智能助手有比較清晰的功能定位後,用戶對智能助手的期望就會限定在一些特定的場景。還是拿導航 APP 來說,百度地圖和高德地圖都有自己的語音助手。當我們打開導航 APP 之後,我們對于那個助手的期望就限定在了路線查詢、出行規劃這樣一些場景。我們并不希望它去滿足比如閑聊或者其他領域的任務,天然就不會強求它情商特别高。這時用戶的期望跟技術現狀是非常匹配的。
回到手機助手,手機助手的定位是非常廣的,用戶期望也是非常高的,希望它無所不能,這時候反而會比較尴尬。因為技術是存在瓶頸的。
橫向比較,全能助手不比專業助手差,但在專業領域去做 PK 的時候全能型助手一定非常吃虧,因為技術瓶頸就在那裡。我們希望通過助手去滿足這麼多垂直任務的時候,目标是很難達成的。當然我們也都在努力,期望未來在每個專業領域都能更好地滿足用戶的期望。
InfoQ:從商業化的角度看,智能助手在哪些行業落地,相對來說商業化價值比較高?
萬玉龍: 我認為商業化本質是價值兌現,就是客戶願不願意為 AI 買單,根源是我們到底為客戶解決了多少問題。蘋果已經推出了 Siri 付費的計劃,Siri 後續會以月服務費(包含在 Apple Music 服務中)的方式,讓用戶通過它控制音樂播放或者内容控制。這也給我們帶來一些思考,就是 AI2C 的收費模式到底成不成立,這都是有待驗證的。
剛才我們提到小布虛拟人。現在各家都在做虛拟人自定義、個性化,有點像 15 年以前的 QQ 秀。據說 QQ 秀是騰訊當年為數不多實現商業化的産品。回歸到虛拟人,如果我們的虛拟人未來的個人化定制能夠引發像當年用戶給 QQ 秀買衣服的訴求,我認為 2C 的商業化模式就有機會了。
還有一部分的商業化模式是 2B 的,就是向 B 端用戶收費。我們首先要看看智能助手能不能像微信或者抖音那樣形成具備大規模用戶的平台,平台形成之後,B 端的商業化模式也可能就成立了。不管是 2C 還是 2B 的商業化模式,大家都在摸索過程中,一切都在等待驗證。
InfoQ:OPPO 現在既做硬件也做軟件,為什麼 OPPO 要走這樣一條軟硬件結合的路線?
萬玉龍: 每家公司都有自己的基因所在。OPPO 在智能手機行業逐漸形成行業影響力之後,本身就是帶着硬件基因在不斷發展的。所以公司做事情的時候肯定是以硬件為基礎,再在上面搭載軟件系統。
随着硬件的銷量增加,用戶的使用頻次增加,公司積累了大量的數據,我們開始希望基于數據驅動提升智能體驗。
我認為 AI 産生更大用戶價值的載體一定是硬件。我們希望通過小布讓 OPPO 的硬件産品具備更加智能的感覺,同時通過小布打造多設備的萬物互融生态,為用戶提供跨終端、全場景的智能交互體驗。
因此選擇軟硬件結合的路線,一方面因為這是 AI 行業比較好的實現路徑,另外對于 OPPO 來說它是最合理的一條實現路徑。
我給現階段的智能助手打 80 分InfoQ:從技術和應用的角度來看,現階段智能語音助手到底發展到什麼樣的水平了?
萬玉龍: 我覺得能打 80 分。
我打 80 分的依據是因為現在确定性的一些任務已經做的不錯了。比如說像天氣查詢、音樂播放等任務已經解放了用戶雙手,這部分需求占據了将近 80%。剩下的 20%是更加開放的技能領域,比如說閑聊等,這塊離用戶的期望還是比較遠。
另外從場景挑戰來說,智能助手還有很多比較複雜的場景還沒有解決。比如說語音方向,在雞尾酒會這樣的多人說話場景行業還在嘗試解決。未來我們希望智能助手能夠像真人一樣,在多人說話的場景也能聚焦在它真正需要對話的用戶上,期望能夠早日實現 90 分的體驗水平。
InfoQ:最後想請您展望一下,未來在智能語音助手領域還有哪些技術趨勢值得大家重點關注?
萬玉龍: 這要回歸到智能助手解決的兩個方向的問題,第一個方向是信息處理,第二個方向是信息表達。
在信息處理階段,現在行業主要基于語音、文本這樣單一的信息點做交互,未來肯定會融合更多的多模态信息,比如語音 視覺 傳感器信息等,真正實現情景智能和情感智能。
情景智能是說,助手會結合用戶所處的環境信息,以及用戶當下所處的情景去給用戶比較适宜的反饋和需求滿足。情感智能是說,我們希望借助用戶的表情、聲音的狀态去理解用戶當前所處的情緒狀态,給用戶更合理的反饋。技術方向上肯定是從單點技術更多往多點技術融合的方向去做。
在信息表達階段,目前虛拟人技術實現了從 0 到 1 的産品形态升級,但是虛拟人的外貌、表情、動作、聲音等方面還是有很大的提升空間。我們想要做到更加自然的、讓人更有代入感的人機對話,甚至通過圖靈測試,前面還有很多彎路。比如說聲音定制,如何讓語音合成的自然度、流暢度,包括停頓、語氣等,能夠讓用戶感覺更加自然,這就有很多技術需要突破。
InfoQ:下一代的智能助手會是什麼樣子?
萬玉龍: 我們認為下一代的智能助手應該是多模态、個性化的,能夠根據用戶的偏好随時随地調整交互策略。
同時随着智能設備的多樣化,我們也希望智能助手是跨終端的,讓用戶的交互體驗能夠做到真正的無縫銜接,無論是車上的交互體驗、智能家居的交互體驗,還是随身可穿戴的交互體驗,智能助手都能保持一緻,讓用戶真正随時随地體驗到智能交互的優越性。
以上就是本次大咖說對話的全部内容。
如果大家還想了解關于 OPPO 小布助手的更多信息,請關注将于 12 月 16-18 日在深圳舉辦的CNCC2021,屆時 OPPO 的技術專家将在大會上做精彩的報告。
大咖說嘉賓介紹:
萬玉龍 ,OPPO 高級總監,中國科學院工學博士,北京大學理學 &經濟學雙學士。曾在阿裡巴巴達摩院和中國科學院工作,長期從事語音、多模态等人機交互技術研發和産品化工作,工作成果應用于小布助手、高德地圖、淘寶直播、支付寶、斑馬互聯網汽車、誇克浏覽器等智能助手産品。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!