作者:張耀寰
關鍵字:
摘要:近幾年,語音識别技術開始從實驗室走向市場。我們預計,未來10年,語音識别技術将全面進入工業、家電、通信、汽車電子、醫療、家庭服務等多個領域, 成為當今最具颠覆性的技術之一。本文将為您揭開蘋果智能語音識别系統Siri的神秘面紗。
Siri的由來
要真正認識Siri,我們還須先知道它是怎麼來的。當我們追溯Siri的由來時,我們發現,Siri實際上源于美國國防部的一個人工智能項目,當年五角大樓的一個叫做CALO的項目,其英文全稱是Cognitive Assistant that Learns and Organizes,如果按照其内涵譯成中文就是:"善于學習并且能夠組織的認知助理"。該項目由美國國防部投資,旨在為軍方提供智能化服務。美國國防部為這個項目安排了高達1.5億美元的預算,彙聚了本專業一大批頂尖的人工智能專家,期待他們能夠開發出在野外通過學習,最終具備智能認知的機器。要做到這一點,機器使用的算法需要被設定大量的數據,然後軟件會根據這些數據來解決問題。CALO項目團隊經過反複研究論證最後決定,必須讓虛拟助手具備自主收集信息的能力,并根據每一次的處理結果進行自我訓練和自我修正,以接近人類的思維判斷。
2、動态本體系統。siri最關鍵的組成部分叫動态本體(英文 Active Ontologies)。什麼是動态本體呢?所謂動态本體是由多元素合成的生态體系組合。特定詞彙、數據庫、頁面服務、互動規則,機器可識别描述等,即所有這些要素的有機結合。語言模式識别是對輸入的總體類型、語法、詞彙、慣用語等進行模式匹配的模塊,匹配模式的代碼在Siri内部采用正則表達式或者狀态機等方式。
Siri的學習功能主要體現在記憶上,這個記憶可區分為長期記憶和短期記憶。如果當你心煩了,機器說出你該從事什麼娛樂,這有可能是你之前把你的興趣愛好告訴了它,它對你的愛好分類記憶,後續在知識庫裡找到了相關信息并保存下來。Siri有兩個記憶系統:長期記憶系統和短期記憶系統來實現個性化交流的。長期記憶系統存儲了用戶的名稱、居住地址以及曆史偏好信息,短期記憶系統則将最近一段時期内Siri和用戶的對話記錄及GUI點選記錄等登記下來。對照這兩個記憶系統,Siri可以在你需要時提醒你,然後調用知識體系幫助你解決疑難問題。
智能語音助理的原理框架圖
Siri與人工智能的最大區别在于其功能不夠強大,計算機認知與人類認知目前還有天壤之别。 Siri對具體事物的理解力非常狹窄,例如就餐、體育運動、休閑娛樂、旅行天氣等。因為各個領域都有其特定語彙,且數據庫、頁面都需要關聯描述,這些集合構成了我們所說的"動态本體"。
例如,就餐的動态本體包涵參觀數據庫,目前美國餐飲評論站點諸如Yelp 和 Zagat,其調用方式通過API實現,這就牽涉相關語彙和行為模型。當我們決定下一餐時,我們會說我們訂什麼樣的席位、如何預訂、如何點菜,這些需要事先錄入用戶此前的訂餐日曆,調用此前的餐飲會話、點餐說詞及預訂流程等,這些事情都在動态本體内有積累和儲存。當我們要再次點餐,Siri會識别用戶意願,追蹤"業務編排單元"(SOC ),這個"單元"會識别外部業務以滿足用戶請求,包括業務理解、命令編譯、信息收集并分類,最終向用戶提供行動導引。
例如,用戶說了:"我要去意大利餐館享用美食","業務編排單元"會在Yelp 和 Zagat網站上進行檢索,然後告訴你兩英裡内的意大利飯館名錄、具體地點、價位,供你選擇。當你作出就餐決策後,業務API 接口程序會為你預訂餐位、點餐和叫出租車。所有這些都通過你過往的就餐習慣,由業務API 接口程序執行。
動态本體原理框架圖(以就餐為例)
SIRI系統中的"業務編排單元"擁有一個工具,此工具可定位各類外部業務 APIs來完成相應行為。動态本體自身也有一套系統,這套系統記錄了多個領域裡人類的活動,以備調用。這兩套系統允許接入外部相關模塊、業務和數據庫,這樣一來, 人們往往會感覺Siri無所不能。
3、語音處理執行系統。Siri的核心執行組件包涵:語言闡釋器、會話流控制器、任務控制器和服務系統等。所謂語言闡釋器,簡言之,就是把人語輸入,轉化為機器可理解的規範意思,因為人語輸入與機器語言存在一個巨大的天然鴻溝,要讓機器知道人語的微妙内涵,需要有一套系統不厭其煩的向機器闡釋,否則機器不會做出理智的回應。會話流控制器是将語言闡釋并解析之後的結果傳遞至控制系統,根據相關參數判定涉及領域,或向用戶索取具體參數。而會話流控制器之後還會對任務控制器進行調用,以确定回應内容。會話流控制扮演着一個協調溝通者的角色。任務流控制器是确定所要執行任務的邊界參數和完成任務各個步驟的邏輯關系。任務流控制器常常會構建出一些任務模型,将抽象概念定義具體化。 服務系統,Siri展現給用戶的是其所能提供的具體服務。Siri中有三個子服務模塊:服務模塊,服務能力模型和多服務集成模塊。服務模塊包含了可供Siri使用的各種信息,服務能力模塊儲備了具體服務内容可調用服務類型的映射關系。服務集成模塊的功能在于可調用另外兩個模塊提供給用戶的具體服務内容。有時,一項服務會涉及多個子服務,分别調用時無論在先後順序還是内容上都存在邏輯依存關系,這類似于智能調度。
4、輸出系統。與計算機系統相類似,SIRI系統所将接納的語音或其它輸入進行處理,最終将以為用戶習慣的方式輸送給用戶。SIRI系統的輸出包括語音、文本、甚至電郵等多模态展現輸出,以完成最後一站工作。
蘋果在其産品iPhone4S首先展現出的智能語音控制功能,使其産品變身為一個智能機器人。之後,蘋果陸續發布了siri新功能。智能語音是否會成為未來智能手機發展的主流方向還有待繼續跟蹤觀察。
更多精彩文章,敬請關注 超天才網
或關注搜索公衆号 天财評論
旗下擁有天财評論、天才創業、天才AI等垂直闆塊,主要以超天才思想和視角,為企業家、創業者、職業經理人等解讀全球财經事件,培育企業萌芽與發現并購商機,并以顧雛軍團隊的商業智慧,培養具有遠見卓識、能屹立于世界之林的企業家和職業經理人隊伍。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!