編輯導語:随着科技的進步,智能座艙技術也在不斷地發展中,本篇文章作者系統地介紹了智能座艙的語言系統,從各個方面詳細地介紹了其車載語音的功能介紹以及整體架構等,感興趣的一起來看一下吧。
智能座艙有兩大人工智能交互系統,一個基于視覺(計算機視覺)、一個基于語音。前者的應用體現在IMS系統,我之前的文章有過介紹;後者的應用在艙内的語音功能。這篇文章就系統地介紹智能座艙的語音系統(VOS)。
一、概述VOS(語音操作系統)旨在為用戶提供車内環境下的語音交互服務。 VOS系統系統采用了喚醒、語音識别、語義理解等技術實現語音控制。
座艙的車設車控、地圖導航、音樂及多媒體應用、系統設置、空調等均可通過語音來操作。除了針對車身、車載的控制外,語音還支持天氣查詢、日程管理以及閑聊對話。
用戶隻要說喚醒詞,即可使用。語音指令可以一步直達功能,既能解放手指,又無需視線偏移注視車機中控區域,從而保障行車安全。
二、總體架構在總體的架構上,語音系統可分為四個模塊。即車端系統、雲端系統、語音運營管理平台以及訓練和分析統計模塊。整體的語音系統和要求,包括車端到雲端鍊接、數據到功能的構建、Online的運營平台、線下線上的數據采集和标注。
三、架構模塊
1. VOS車端系統
車機端主要是對話系統(DS),也是用戶感受最直觀的,産品的重點側向交互設計。
2. VOS車端模塊
從上圖可以看到,車機端由以下幾個模塊組成:
- 音頻處理模塊:AEC /AGC/ANR/ BF;
- 喚醒模塊/本地ASR;
- 語音控制器語;
- 本地對話系統;
- TTS模塊。
以上每個模塊均包含一個或多個應用,這些應用内置在車機:音頻處理包括AEC (Acoustic Echo Cancelling)、VAD (Voice Activity Detection)、音頻壓縮、喚醒詞、本地的ASR識别等。該模塊可以對來自麥克風的原始音頻信号進行各種預處理,向語音助手提供獲取喚醒信号、預處理後的音頻、本地ASR識别結果等接口。
前端信号處理包括:AEC、ANR、AGC、聲源定位(SSL)、Beamforming,全部通過軟件方案實現。
3. 語音助手
車機端負責語音對話的中樞控制模塊,負責協調車機端對話系統的總體流程。車機端的其他模塊或者被語音助手調用(音頻服務、本地對話系統、TTS模塊、應用程序),或者屬于語音助手的組成部分(對話控制器)。
4. 本地對話系統(本地DS)
本地對話系統是雲端對話系統在車機上的一個鏡像。它負責執行那些需要在車機上執行的對話處理,如:離線無網絡狀态下的對話功能、基于本地SDK的導航或音樂搜索相關的對話處理、 或者其他一些本地優于雲端的場景下的對話功能。本地對話系統提供了一系列接口供對話控制器進行調用。
本地對話系統從雲端對話系統相同的基礎架構衍生而來,和雲端的設計和功能大體相同。
但也根據本地的特點和需求進行了變化。如鑒于車機運算資源的匮乏而精簡了模型;集成了車機專屬的基于SDK的媒體和導航搜索功能;本地對話系統包含語音識别、語義理解、語音合成, 系統傾向于支持斷網場景下的業務,如車控、打電話等基本場景。
本地對話系統的交互入口是語音喚醒,有的喚醒會支持雙喚醒詞(隐含)。像百度地圖就支持“小度小度”也支持“小德小德”(高德地圖的喚醒詞),容錯率更好。
5. 本地NLU
本地NLU在無網絡狀态下,提供基礎語義理解服務,考慮到車機端的運算能力,在NLU模型上需做大量的模型裁剪和壓縮,并結合車機芯片進行指令集層面的優化,确保将本地NLU的效果最大程度的逼近雲端NLU的效果;本地NLU的資源大約是在線的1/10, 最大程度的保證了本地的效果。
6. 本地TTS
TTS模塊被語音助手調用,負責将文本轉換為語音播報。TTS合成引擎由供應商提供,對話話術的TTS文本通過話術運營系統來制定和編輯,其結果存儲在數據庫中、供對話系統調用。
四、雲端系統
1. 對話系統
對話系統的雲端部分(或者說在線對話系統)由多個部署在雲服務上的服務和存儲組成。
雲端向車機提供兩種接口:一種是基于TCP的socket流式數據傳輸接口,用于傳輸語音數據并給出
雲端ASR識别結果和對話結果:一種是基于HTTP的用于發送非語音類消息的接口。雲端服務可以部署在各種雲服務(如aws、華為雲等)的計算節點上;一套部署在具備64G内存的計算節點
上的雲端節點可以同時支持2-3萬台設備的訪問。
對話系統的雲端部分主要提供以下幾項功能:
- 在線ASR識别對話服務模塊可以接受用戶發起的語音對話的音頻輸入,并給出識别結果。
- 對話 對話服務模塊可以接受用戶發起的語音對話的文本輸入,并給出相應的對話結果,包括TTS文本、要車機進行的操作、車機用來屏顯的内容等。
- 其他功能如向用戶進行主動推送等。
2. 模型
模型主要提供各種AI算法的運行模型數據,包括聲學模型、語言模型等等多個不同算法不同用途的模型,可獨立升級,來實現最優的AI處理效果。
對于通用領域,模型優化能夠帶來整體的提升,例如整體升級聲學模型和語言模型,在用戶數據積累到一定程度的時候,如1萬小時交互音頻數據,可以帶來20%-30%錯誤率下降。
對于專有領域,模型優化能夠實現從極低到極高,甚至從無到有的提升,例如一些産品強相關的詞彙、使用常見的一些專有名詞、人名地名等,都可以做特定的優化,達到通用的效果。
3. 雲端TTS
雲端TTS有别于本地端TTS,基于強大的計算能力,雲端使用更大的數據庫,技術上使用基于拼接的方案,相比于本地端基于參數合成的TTS,音質更自然; TTS的聲音可以進行定制,需要經過文本設計、發音人确認、錄音場地和錄音、數據篩選、标注、訓練等過程。
五、運營平台運營平台通過雲端和線上對話系統聯通,負責以可視化的形式幹預對話系統線上的數據和功能。其中主要包含兩大類功能:數據運營、功能運營。
1. 數據運營
數據部分的運營主要針對兩部分比較常用的可運營數據:
- 針對系統接入的CP/SP的可運營的内容,比如喜馬拉雅的推薦數據、黃頁數據等等,可以在系統中以手動的方式調整數據的内容、排序等;
- 針對企業自有的數據,比如主機廠獨有的充電樁數據、服務門店數據,可以有機的結合到對話系統中來。
2. 功能運營
功能運營主要是在特定的時間點,比如某些節日、或者有特殊意義的日子、或者臨時發生一些事件的時候,通過快速幹預某些特定的說法的反饋,通過編輯特定說法的TTS回複,來實現系統對特殊情況的特殊處理。
六、訓練及分析1. 用戶數據統計分析
用戶數據統計分析系統,通過對所有實車用戶使用車載語音的情況進行統計分析,能夠得出不同維度、不同粒度的分析報表。定期進行報表的解讀和分析,可用得出的結論來指導系統功能的改進。
2. 訓練系統
針對音頻、文本、圖像的采集 标注系統,企業通過定期常規的對線上數據的回收、标注和不定期的對特殊要求數據的采集、标注,生産出各個AI模型需要的數據,提供模型訓練支持;每次模型訓練完畢會有叠代上線,從而實現訓練數據系統和線上模型的一個閉環叠代,不斷的提升整體的語音産品的能力。
以上便是對智能座艙車載語音系統的完整介紹。如果你對智能座艙産品感興趣,關注我。
本文由 @賽博七号 原創發布于人人都是産品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!