導讀:本文将介紹智能語音處理的基本概念、基本框架和基本模型。
作者:張雄偉 孫蒙 楊吉斌 等
來源:華章科技
機器學習的快速發展,為智能語音處理奠定了堅實的理論和技術基礎。智能語音處理的主要特點是從大量的語音數據中學習和發現其中蘊含的規律,可以有效解決經典語音處理難以解決的非線性問題,從而顯著提升傳統語音應用的性能,也為語音新應用提供性能更好的解決方案。
01 智能語音處理的基本概念為簡化處理,經典的語音處理方法一般都建立在線性平穩系統的理論基礎之上,這是以短時語音具有相對平穩性為前提條件的。但是,嚴格來講,語音信号是一種典型的非線性、非平穩随機過程,這就使得采用經典的處理方法難以進一步提升語音處理系統的性能,如語音識别系統的識别率等。
随着機器人技術的不斷發展,以機器人智能語音交互為代表的語音新應用迫切要求發展新的語音處理技術與手段,以提高語音處理系統的性能水平。
近十年來,人工智能技術正以前所未有的速度向前發展,機器學習領域不斷湧現的新技術、新算法,特别是新型神經網絡和深度學習技術等極大地推動了語音處理的發展,為語音處理的研究提供了新的方法和技術手段,智能語音處理應運而生。
至今為止,智能語音處理還沒有一個精确的定義。廣義上來說,在語音處理算法或系統實現中全部或部分采用智能化的處理技術或手段均可稱為智能語音處理。
02 智能語音處理的基本框架“聲源-濾波器”模型雖然能夠有效地區分聲源激勵和聲道濾波器,對它們進行高效的估計,但語音産生時發聲器官存在着協同動作,存在緊耦合關系,采用簡單的線性模型無法準确描述語音的細節特征。
同時,語音是一種富含信息的信号載體,它承載了語義、說話人、情緒、語種、方言等諸多信息,分離、感知這些信息需要對語音進行十分精細的分析,對這些信息的判别也不再是簡單的規則描述,單純對發聲機理、信号的簡單特征采用人工手段去分析并不現實。
類似于人類語言學習的思路,采用機器學習手段,讓機器通過“聆聽”大量的語音數據,并從語音數據中學習蘊含其中的規律,是有效提升語音信息處理性能的主要手段。與經典語音處理方法僅限于通過提取人為設定特征參數進行處理不同,智能語音處理最重要的特點就是在語音處理過程或算法中體現從數據中學習規律的思想。
圖1-5給出了智能語音處理的三種基本框架,圖中虛線框部分有别于經典語音處理方法,包含了從數據中學習的思想,是智能語音處理的核心模塊。
▲圖1-5 智能語音處理的基本框架
其中,圖1-5a是在經典語音處理特征提取的基礎上,在特征映射部分融入了智能處理,是機器學習的經典形式,圖1-5b和圖1-5c是表示學習的基本框架,其中圖1-5c是深度學習的典型框架,“深度層次化的抽象特征”是通過分層的深度神經網絡結構來實現的。
03 智能語音處理的基本模型智能語音處理是智能信息處理的一個重要研究領域,智能信息處理涉及的模型、方法、技術均可應用于智能語音處理。智能語音處理的基本模型和技術主要來源于人工智能,機器學習作為人工智能的重要領域,是目前智能語音處理中最常用的手段,而機器學習中的表示學習和深度學習則是智能語音處理中目前最為成功的智能處理技術。
▲圖1-6 AI/ML/RL/DL的關系圖
圖1-6展示了人工智能(Artificial Intelligence,AI)、機器學習(Machine Learning,ML)、表示學習(Representation Learning,RL)及深度學習(Deep Learning,DL)的相互關系。
下面列出了近年來在智能語音處理中常見的模型和技術。
1. 稀疏與壓縮感知
一個事物的表示形式決定了認知該事物的難度。在信息處理中,具有稀疏特性的信号表示更易于被感知和辨别,反之則難以辨别。因此,尋找信号的稀疏表示是高效解決信息處理問題的一個重要手段。
利用冗餘字典,可以學習信号自身的特點,構造信号的稀疏表示,并進一步降低采樣和處理的難度。這種字典學習方法為信息處理提供了新的視角。對語音信号采用字典學習,構造語音的稀疏表示,為語音編碼、語音分離等應用提供了新的研究思路。
2. 隐變量模型
語音的所有信息都包含在語音波形中,隐變量模型假設這些信息是隐含在觀測信号之後的隐變量。通過利用高斯建模、隐馬爾可夫建模等方法,隐變量模型建立了隐變量和觀測變量之間的數學描述,并給出了從觀測變量學習各模型參數的方法。
通過參數學習,可以将隐變量的變化規律挖掘出來,從而得到各種需要的隐含信息。隐變量模型大大提高了語音識别、說話人識别等應用的性能,在很長一段時間内都是智能語音處理的主流手段。
3. 組合模型
組合模型認為語音是多種信息的組合,這些信息可以采用線性疊加、相乘、卷積等不同方式組合在一起。具體的組合方式中需要采用一系列模型參數,這些模型參數可以通過學習方式從大量語音數據中學得。這類模型的提出,有效改善了語音分離、語音增強等應用的性能。
4. 人工神經網絡與深度學習
人類面臨大量感知數據時,總能以一種靈巧的方式獲取值得注意的重要信息。模仿人腦高效、準确地表示信息一直是人工智能領域的核心挑戰。
人工神經網絡(Artificial Neural Network,ANN)通過神經元連接成網的方式,模拟了哺乳類動物大腦皮層的神經通路。和生物的神經系統一樣,ANN通過對環境輸入的感知和學習,可以不斷優化性能。
随着ANN的結構越來越複雜、層數越來越多,網絡的表示能力也越來越強,基于ANN進行深度學習成為ANN研究的主流,其性能相對于很多傳統的機器學習方法有較大幅度的提高。但同時,深度學習對輸入數據的要求也越來越高,通常需要有海量數據的支撐。
ANN很早就應用到了語音處理領域,但由于早期受到計算資源的限制,神經網絡層數較少,語音處理應用性能難以提升,直到近年來深層神經網絡的計算資源、學習方法有了突破之後,基于神經網絡的語音處理性能才有了顯著的提升。
深度神經網絡可以學到語音信号中各種信息間的非線性關系,解決了傳統語音處理方法難以解決的問題,已經成為當前智能語音處理的重要技術手段。
本文摘編自《智能語音處理》,經出版方授權發布。
延伸閱讀《智能語音處理》
推薦語:十餘年深耕智能語音處理的研究結晶,本書系統性地闡述智能語音處理技術,并重點以機器學習等技術及其在語音處理中的典型應用,理論與實踐聯系緊密。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!