tft每日頭條

 > 科技

 > ai語音識别行業發展

ai語音識别行業發展

科技 更新时间:2024-11-22 17:31:07

讓機器能聽會說、能理解會思考還遠嗎?首先要實現的,就是“聽”的功能。

芝麻開門!

ai語音識别行業發展(語音識别類産品細分及其應用場景)1

你的童年是否也曾這樣對着大門發出命令?

當然,大門用靜止表示對你的“忽視”。樂此不疲的孩子還是會時不時對着門喊上幾句,我們的潛意識是希望得到門有所回應,比如:門開了。

命令失效的原因是什麼?因為大門本身不具備聽到聲音的能力,如果我們能讓大門可以聽到你說的話、發出的命令,進一步才可以啟動語義和執行系統控制它的開關。

這就引申到本次重點介紹的技術——語音識别。本次幹貨分享由語音識别産品經理:@ 焦糖瑪奇朵 進行提供。希望能為大家打開語音識别的大門。

語音識别是一項将人類的聲音信号轉化為文字的過程。本文将從産品的角度對業界的語音識别産品進行歸類和說明。不同的産品類型具有不同的算法或者接口特性,對應不同的需求場景。

根據識别内容的範圍,語音識别的大類分列如下

1、封閉域識别:

識别範圍為預先指定的字/詞集合,即算法隻在開發者預先設定的封閉域識别詞的集合内進行語音識别,對範圍之外的語音會進行拒識。因此,可以将其聲學模型和語言模型進行裁剪,使得識别引擎的運算量也較小。并且可将引擎封到嵌入式芯片或者本地化的SDK中,從而使識别過程完全脫離雲端,擺脫對網絡的依賴,并且不會影響識别率。業界廠商提供的引擎部署方式包括雲端和本地化(如:芯片,模塊和純軟件SDK)。

産品類型:命令字/詞識别,語音喚醒,語法識别

産品形态:流式傳輸-同步獲取

典型的應用場景:不涉及到多輪交互和多種語義說法的場景,如簡單指令交互的智能家居和電視盒子,語音控制指令一般隻有:“打開窗簾”,“打開中央台”等,但是一旦涉及到程序猿大大們在後台配置識别詞集合之外的命令,如“給小編這篇文章來個打賞”,識别系統将拒識這段語音,不會返回相應的文字結果,更不會做相應的回複或者指令動作。

2、開放域識别:

無需預先指定識别詞集合,算法将在整個語言大集合範圍中進行識别。為适應此類場景,聲學模型和語音模型一般都比較大,引擎運算量也較大。将其封裝到嵌入式芯片或者本地化的SDK中,耗能較高并且影響識别效果。業界廠商基本上都以雲端形式提供,雲端包括公有雲形式和私有雲形式。本地化形式隻有帶服務器級别計算能力的嵌入式系統,如會議字幕系統。

産品類型按照說話風格的特點,分為:

(1)語音聽寫:語音時長較短(<1min),一般情況下均為一句話。訓練語料為朗讀風格,語速較為平均。一般為人機對話場景,錄音質量較好。

按照音頻錄入和結果獲取方式定義産品形态

(a)流式上傳-同步獲取,應用/軟件會對說話人的語音進行自動錄制并将其連續上傳至雲端,說話人在說完話的同時能實時地看到返回的文字。語音雲服務廠商的産品接口中會提供音頻錄制接口和格式編碼算法,供客戶端進行邊錄制邊上傳,并與雲端建立長連接,同步監聽并獲取識别結果。

(b)已錄制音頻文件上傳-同步獲取,用戶需自行預先錄制好規定格式的音頻,并使用語音雲服務廠商提供的接口進行音頻上傳,客戶端與雲端的連接和結果獲取方式與上述音頻流類似。

典型應用場景:應用發展已經比較成熟:主要在輸入場景,如輸入法;與麥克風陣列和語義結合的人機交互場景,如具備更自然交互形态的智能音響,如“叮咚叮咚,轉發小編這篇文章。”,在無配置的情況下,識别系統也能夠識别這段語音,返回相應的文字結果。

(2)語音轉寫:語音時長一般較長(五小時内),句子較多。訓練語料為交談風格,即說話人說話無組織性比較強,因此語速較不平均,吞字&連字現象較多。錄音大多為遠場或帶噪的。

除了模型不同之外,按照音頻錄入和結果獲取方式定義産品形态

(a)音頻流轉寫:流式上傳-同步獲取,與上述語音聽寫類似,唯一不同的是,識别的時長不會有一句話的限制。

(b)非實時已錄制音頻轉寫:已錄制音頻文件上傳-異步獲取,用戶需自行調用軟件接口或者是硬件平台預先錄制好規定格式的音頻,并使用語音雲服務廠商提供的接口進行音頻上傳,上傳完成之後便可以斷掉連接。用戶通過輪詢語音雲服務器或者使用回調接口進行結果獲取。

由于長語音的計算量較大,計算時間較長,因此采取異步獲取的方式可以避免由于網絡問題帶來的結果丢失。也因為語音轉寫系統通常是非實時處理的,這種工程形态也給了識别算法更多的時間進行多遍解碼。而長時的語料,也給了算法使用更長時的信息進行長短期記憶網絡建模。在同樣的輸入音頻下,此類型産品形态犧牲了一部分實時率,花費了更高的資源消耗,但是卻可以得到最高的識别率。在時間允許的使用場景下,非實時已錄制音頻轉寫無疑是最推薦的産品形态!

典型應用場景:如字幕配置,客服語音質檢,UGC語音内容審查

概念厘清

1、離線VS在線

在訊飛開放平台的産品定義和較多的客戶認知中,離/在線的區别在于識别過程是否需要通過雲端請求,即識别引擎是在雲端還是本地。而雲計算中的離/在線産品的引擎都處在雲端,區别在于在計算過程中,客戶端是否需要與雲端進行實時數據交互,即上述所述的音頻流和非實時已錄制音頻轉寫。兩者的定義有沖突,因此并不建議使用離/在線概念進行相關産品定義。

2、8K VS 16Khz采樣率語音模型

在衆多語音雲服務廠商中,會根據音頻采樣率進行分類,從而訓練出更适合各類采樣率的語音模型,最典型的為8K和16K模型。原始音頻信息保留越多越有利于識别率的提升,因此,16K音頻采用16K語音模型,其識别率會普遍高于8K音頻采用8K模型。

3、語音識别VS語義識别

語音識别是語義識别的前提基礎。語音識别将聲音轉化成文字,語義識别提取文字中的相關信息和相應意圖,通過執行模塊進行相應的問題回複或者反饋動作。

結語(栗子結合了一小丢丢語義):

最後舉一個栗子作為收尾:“叮咚叮咚,給小編這篇文章點個贊呗。”,在無後台配置的情況下,封閉域的語音識别系統會拒識這段語音,開放域的識别系統卻能夠識别這段語音,返回相應的文字結果。而現階段的開放域語義系統在大概率情況下,還是會回複得比較生硬,并且也不會自動識别出相應的意圖并做出指令。按照現有的比較通用的方法,這個功能需要使用封閉域的語義識别在後台預先配置相關答案,并且根據預先配置的信息抽取意圖,再根據意圖類别和槽位信息執行相應的動作——即調用微信的點贊接口(假設可以)進行相應的點贊操作。

聽起來好繞呀,是不是覺得還是自己手動點個贊簡單粗暴省事得多了呢?然而,一切現代人類做起來自然而然&毫不費力的動作,卻都是建構在經過了億萬年的學習進化,兆億次閉環重複練習的智人基因!而任何的人工智能技術也是需要一個巨量的數據訓練和一定的演變周期。并且在所有的科技發展進程中,率先取得突破并且在應用領域産品成熟化往往都是在封閉域,亦如現在正處封閉域産品化的語義識别(如:AIUI,echo等),而語音識别的産品成熟化已經走過了封閉域到達了開放域,正在向各行各業輸送人工智能的力量!

附圖:語音識别産品類别圖

ai語音識别行業發展(語音識别類産品細分及其應用場景)2

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved