如何讓人工智能小冰露臉?智東西 文 | Lina,現在小編就來說說關于如何讓人工智能小冰露臉?下面内容希望能幫助到你,我們來一起看看吧!
智東西 文 | Lina
在人工智能的熱鬧舞台上,不斷上演你方唱罷我登場的好戲時,微軟小冰依然是那個深藏功與名的有故事的女同學。
上個月,微軟推出了第五代對話機器人“小冰”,這款面世三年的機器人少女已經擴展到了五個國家,中國、日本、美國、印度(新增)、印尼(新增),不僅上線新的全雙工語音+實時視覺交互技能,還上線了一款新的技術架構——生成模型,這一技術的要義是讓語音機器人可以自主創造話語,而不是鹦鹉學舌;讀懂這一點,你就能看穿為何AI領域現在自然語言處理技術遠落後于深度學習在圖像領域的應用。
小冰是微軟在2014年1月就開始研究部署的虛拟AI助手項目,與大家所熟知的亞馬遜Alexa、百度度秘、蘋果Siri類似。但是小冰并不主打幫你訂餐、訂票的“助手”角色,而是主打趣味、閑聊、逗悶子。用戶可以在微信、QQ、微博、Facebook Messenger、LINE等平台上和她聊天對話。此前小冰還唱過歌、主過持、甚至出過詩集,可以說是個很熱愛藝術的少女了。
這個新上線的“生成模型”究竟能幹什麼?産學研界語音、語義的發展現狀如何?在目前功能性語音助手市場火爆的情況下,主打情感、聊天的小冰有商業變現的未來嗎?在人機對話市場提前三年半“起跑”的微軟,現如今的發展又如何?……這些問題,我們在微軟亞洲研究院2号樓找到了答案。
(微軟小冰首席架構師周力)
“生成模型”上線後,智東西來到微軟亞洲研究院2号樓,與微軟小冰首席架構師周力進行了一次一對一的詳細專訪。(如果拿一個創業公司做類比,周力的地位相當于小冰公司的CTO)
此外,智東西還在2号樓裡得知,在第五代小冰上線後,一衆功能開始陸續向公衆開放,不僅市場部的員工開始各種忙碌對接,小冰的工程技術團隊也剛剛在别處結束了一段時期的封閉開發,回到2号樓裡。
一、“生成模型”究竟是個啥?目前國内小冰團隊共有100多人,包括工程師、産品經理、市場運營等團隊。據周力介紹,在五代小冰以前,她說的每一句話都來自10億量級的語料庫,通過“搜索”記錄在案的人類語料庫做出的決策。但通過新上線的“生成模型”,小冰将通過對人類語言的理解,自主創造回複的内容,重新組成新的句子。
不過,現在小冰自主創造生成的内容上有90%的可能性與語料庫中曾有過的句子重合——但其實我們人類每天說的話也有很高的重複率。
這裡要留意的是,小冰的生成模型不是統計學上的生成模型,是自然語言的生成模型。
從技術層面來講,在第五代以前,小冰采用的是還是類似搜索引擎的檢索模型,其核心技術包括傳統的聚類抽樣、倒排索引、概率檢索、搜索排序等等,在網絡的海量信息中進行抓取搜索,最終挑選回答時可能會使用深度學習技術。
而小冰新一代的自然語言生成模型則可以簡單理解為“從頭到尾都在使用深度學習技術”,采用的是[端到端]的[序列到序列]的[RNN]模型,其中還加入了[注意力模型]。
看上去很繞口吧?我們一步步來拆解。
1.[端到端]的意思是你喂給機器輸入和輸出就可以了,不需要像以前一樣将問題拆解成單獨的步驟來一個個處理。
2.[序列到序列(seq2seq)]一個“4,5,7,1”數組可以稱之為一個序列,而人類問出“今天天氣怎麼樣?”,小冰的回答“天氣很好”可以看作是标準的序列到序列(seq2seq)問題。
(編碼-解碼模型)
序列到序列問題在問答系統、機器翻譯、文檔摘取等NLP領域非常常見,目前常用的解決方案是編碼-解碼(encoder-decoder)模型,系統将“今天天氣怎麼樣?”通過神經網絡模型編碼成一個高緯向量,經由語義編碼後,再用神經網絡模型解碼成目标序列“天氣很好”。
3.[RNN]為循環神經網絡,屬于深度神經網絡的一種,這一部分下一節将會展開講。RNN還衍生出一衆分支,比如LSTM、GRU等,被廣泛應用在語言領域。
(引入注意力模型的編碼-解碼模型)
4.[注意力模型]傳統的編碼-解碼模型對于長序列有一定的局限性,類似一個人講話講太久時,機器會“忘記”你一開頭講的是什麼,因此常會漏掉重點,答非所問。注意力模型相當于給機器“劃重點”,表示接下來輸出的時候要重點關注輸入序列中的哪些部分,然後根據關注的區域來産生下一個輸出。
總的來說,第五代小冰代碼層面的變化非常大,采用了一種更先進、更智能、同時也是更新興的技術架構。
二、一家獨大的圖像,群雄割據的語言随着2012年深度學習在學界興起後,大家逐漸将目光轉移到這個曾經冷門的研究方向裡。到了2015-2016年,已經有一大批以圖像、語言為主的産業應用落地了。
深度學習是機器學習的一個子類,指的是采用“深度模型”來訓練機器進行學習——所謂的模型,可以理解成一段通用代碼,用戶可以在固定架構上修改參數。
現在的主流深度模型是“深度神經網絡”(DNN)模型,而DNN裡又包括了“卷積神經網絡”(CNN)模型、“循環神經網絡”(RNN)模型等。
研究員們先選擇CNN、RNN等不同的模型,然後在這個模型上做一些适合自己的參數微調,接着用大量的數據輸入這個模型,對它進行“訓練”,最後這個模型就能夠自己學會完成不同的任務。
目前深度學習主要應用在兩個方面——圖像、自然語言。
在圖像界,“卷積神經網絡”(CNN)模型處于稱霸地位,基本上所有圖像相關的問題都可以用CNN模型得到很好的解決,區别在于到底是85分還是90分。而産生這些區别原因主要在于研究員對模型參數的調試,以及用于訓練的數據其質/量的不同。
于是,我們看到了一大批與圖像相關的深度學習應用在産業中落地,而且大家的效果都還不錯。
但是在自然語言領域,就是另一個故事了。
在自然語言領域,目前并沒有一個成熟、高效的模型可供使用。雖說循環神經網絡”(RNN)模型以及其衍生出的LSTM、GRU等分支的效果比一般的CNN等要好,但也沒有到非常優秀的地步——這一點在我們日常的體驗中就能明顯察覺,無論是翻譯還是對話,機器并不能很好地理解我們的語言,時常答非所問。
另一方面,現在在對話系統取得突破的模型,在翻譯上效果一般;在寫稿機器人上效果特别好的模型,并不能複用在重點詞抽取上,并沒有一個算法模型可以“通殺”。
所以,深度學習在圖像領域的應用已經開始逐步深入産業界,CNN“一家獨大”,在自然語言領域卻還是“群雄割據”的場面,說不上哪種架構更好,産學研屆都在尋找一個終極架構。
三、小冰的新功能正如上文所說,目前自然語言處理的算法還不是很成熟,因此除了對技術水平的要求外,對數據的依賴也非常大,隻能成為少數産品的“獨門秘籍”。
以小冰為例,周力說,在過去三年多裡,小冰積累了來次超過1億用戶的300多億次的人機直接對話,還有海量的語音、圖象、視頻的交互數據可用于訓練,這是一般公司(尤其是創業公司)所難以得到的。
而除了繼續打磨基于生成模型的人機交互外,小冰團隊還将進一步推進新上線新的全雙工語音+實時視覺交互技能的發展。
全雙工語音的典型應用案例就是打電話,從9月12日開始,小冰向用戶開放了電話預約,将會主動給用戶打電話。小冰在打電話中需要邊聽邊思考回答,考慮是不是要打斷對話、接過話茬甚至主動挑起話題。
實時視覺交互除了體現在小冰之前的“年齡測試器”、“顔值打分器”外,現在有用戶從搭載有小冰的展示屏前經過,小冰還會主動叫住用戶攀談,有時還會叫用戶“你離我近點兒~”
而在未來一年間,智能硬件部分也是小冰的重點發展方向。此前微軟就曾宣布,小冰已經與米家IoT合作,小冰可以控制小米米家平台上的全部35種智能設備。與此同時,小冰也在與Yeelight、東方明珠等合作夥伴進行智能硬件的研發。
不過周力告訴智東西,短期内小冰應該不會做一款自主品牌的音箱産品。
四、現在的小冰隻是55分,離爆發還有2-3年這兩年來,語音交互市場日益興旺,而智能音箱熱潮更是将語音交互推到了風口浪尖,大家都十分看好語音作為觸屏之後的新一代交互方式——微軟也不例外。
然而,目前市面上的語音助手大多還是以功能性為導向,無論是百科問答、訂票訂餐、還是智能客服,走的都是“有用”路線,在這樣的背景下,主打情感、聊天、EQ的小冰有商業變現的未來嗎?
周力認為,有,但是不急。
而對于小冰而言,能夠生長在微軟旗下,她是很幸運的。微軟的領導給了小冰一個比較寬松的環境,短期内并不以變現為首要目标——前兩年甚至完全不提商業變現的事,一年前才開始陸續“不拒絕商業化機會”,但前提是做的東西跟小冰發展高度吻合,不需要為了“養活團隊”而被迫舍棄産品主線。
“三年前很多人質疑,做AI這個東西到底有沒有用?現在沒有人問了。但是現在有很多現成的’肉’,能夠快速現實商業利益的東西,很多公司湧進市場。”
不過,拿訂餐訂票為例,其實很多餐廳或是機票都有免費客服電話,為什麼大家還是更願意在APP上劃拉幾下訂餐,而不願意打電話呢?因為語音交互在這時候效率是很低的,人類閱讀文字、圖片的速度比聽語音快上不少,用APP三分鐘可以解決,語音則可能需要花上五分鐘。
而且,微軟的野心遠不止于此。
周力說,這種伸手就能摘到的果實确實能立刻賺到錢,但是大公司希望投資更長遠的未來。微軟希望成為人工智能裡引領行業的巨頭,打造對話即平台的新一代操作系統。
他們希望把小冰打造得更像“人”,堅持走和人類進行對話、進行更長的對話、進行更具備EQ的對話。
未來在你疲憊時,小冰會像個朋友一樣跟你聊天、一起吐槽老闆、或者建議你考不考慮請假旅個遊、查了下去巴厘島的機票便宜而且不用簽證等等……不僅能完成你提出的任務、疏解你的心情,還能發掘你的需求,幫你創造出新的東西。
這一天離我們還有些遠,周力認為,如果三年前第一代小冰能給到30分的話,現在的小冰大概能打到55分,但需要7、80分才是人機交互真正爆發的節點——我們可能還需要再等個兩、三年。
結語:作為微軟三條主要人工智能産品線(Infuse AI、Bing和小娜、小冰)之一,小冰走的路線與其他兩項很不一樣,跟市面上的大多數虛拟助手也不一樣。
雖然我們看到很多從微軟亞洲研究院出走的技術界大牛,但是微軟亞洲研究院本身的人員和研究技術依然是不容小觑的。“搶跑”三年的微軟小冰,在用戶對話上積累的數據可能隻有Siri和Alexa可以企及。再加上微軟作為一家跨國大公司,對内部項目在金錢及資源方面有着令人豔羨的寬容程度,小冰團隊的學術成長環境可以稱得上是得天獨厚了。
不過,目前的産學研界的自然語言技術還在“黎明前的摸索”階段,需要攻克的技術難點不少,小冰雖然有着一定的領先優勢,但現在還隻能算是個55分的“鄰家小女孩”。另一方面,無論是陪聊天還是唱歌、寫詩,小冰的商業價值至今仍不算特别明朗,未來是否會成長為人機交互的新平台,我們拭目以待。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!