ai語音識别行業發展-tft每日頭條

ai語音識别行業發展

科技更新时间:2025-09-06 15:21:24

讓機器能聽會說、能理解會思考還遠嗎？首先要實現的，就是“聽”的功能。

芝麻開門！

ai語音識别行業發展（語音識别類産品細分及其應用場景）1

你的童年是否也曾這樣對着大門發出命令？

當然，大門用靜止表示對你的“忽視”。樂此不疲的孩子還是會時不時對着門喊上幾句，我們的潛意識是希望得到門有所回應，比如：門開了。

命令失效的原因是什麼？因為大門本身不具備聽到聲音的能力，如果我們能讓大門可以聽到你說的話、發出的命令，進一步才可以啟動語義和執行系統控制它的開關。

這就引申到本次重點介紹的技術——語音識别。本次幹貨分享由語音識别産品經理：@ 焦糖瑪奇朵 進行提供。希望能為大家打開語音識别的大門。

語音識别是一項将人類的聲音信号轉化為文字的過程。本文将從産品的角度對業界的語音識别産品進行歸類和說明。不同的産品類型具有不同的算法或者接口特性，對應不同的需求場景。

根據識别内容的範圍，語音識别的大類分列如下

1、封閉域識别：

識别範圍為預先指定的字/詞集合，即算法隻在開發者預先設定的封閉域識别詞的集合内進行語音識别，對範圍之外的語音會進行拒識。因此，可以将其聲學模型和語言模型進行裁剪，使得識别引擎的運算量也較小。并且可将引擎封到嵌入式芯片或者本地化的SDK中，從而使識别過程完全脫離雲端，擺脫對網絡的依賴，并且不會影響識别率。業界廠商提供的引擎部署方式包括雲端和本地化（如：芯片，模塊和純軟件SDK）。

産品類型：命令字/詞識别，語音喚醒，語法識别

産品形态：流式傳輸-同步獲取

典型的應用場景：不涉及到多輪交互和多種語義說法的場景，如簡單指令交互的智能家居和電視盒子，語音控制指令一般隻有：“打開窗簾”，“打開中央台”等，但是一旦涉及到程序猿大大們在後台配置識别詞集合之外的命令，如“給小編這篇文章來個打賞”，識别系統将拒識這段語音，不會返回相應的文字結果，更不會做相應的回複或者指令動作。

2、開放域識别：

無需預先指定識别詞集合，算法将在整個語言大集合範圍中進行識别。為适應此類場景，聲學模型和語音模型一般都比較大，引擎運算量也較大。将其封裝到嵌入式芯片或者本地化的SDK中，耗能較高并且影響識别效果。業界廠商基本上都以雲端形式提供，雲端包括公有雲形式和私有雲形式。本地化形式隻有帶服務器級别計算能力的嵌入式系統，如會議字幕系統。

産品類型按照說話風格的特點，分為：

（1）語音聽寫：語音時長較短（<1min），一般情況下均為一句話。訓練語料為朗讀風格，語速較為平均。一般為人機對話場景，錄音質量較好。

按照音頻錄入和結果獲取方式定義産品形态：

(a)流式上傳-同步獲取，應用/軟件會對說話人的語音進行自動錄制并将其連續上傳至雲端，說話人在說完話的同時能實時地看到返回的文字。語音雲服務廠商的産品接口中會提供音頻錄制接口和格式編碼算法，供客戶端進行邊錄制邊上傳，并與雲端建立長連接，同步監聽并獲取識别結果。

(b)已錄制音頻文件上傳-同步獲取，用戶需自行預先錄制好規定格式的音頻，并使用語音雲服務廠商提供的接口進行音頻上傳，客戶端與雲端的連接和結果獲取方式與上述音頻流類似。

典型應用場景：應用發展已經比較成熟：主要在輸入場景，如輸入法；與麥克風陣列和語義結合的人機交互場景，如具備更自然交互形态的智能音響，如“叮咚叮咚，轉發小編這篇文章。”，在無配置的情況下，識别系統也能夠識别這段語音，返回相應的文字結果。

（2）語音轉寫：語音時長一般較長（五小時内），句子較多。訓練語料為交談風格，即說話人說話無組織性比較強，因此語速較不平均，吞字&連字現象較多。錄音大多為遠場或帶噪的。

除了模型不同之外，按照音頻錄入和結果獲取方式定義産品形态：

(a)音頻流轉寫：流式上傳-同步獲取，與上述語音聽寫類似，唯一不同的是，識别的時長不會有一句話的限制。

(b)非實時已錄制音頻轉寫：已錄制音頻文件上傳-異步獲取，用戶需自行調用軟件接口或者是硬件平台預先錄制好規定格式的音頻，并使用語音雲服務廠商提供的接口進行音頻上傳，上傳完成之後便可以斷掉連接。用戶通過輪詢語音雲服務器或者使用回調接口進行結果獲取。

由于長語音的計算量較大，計算時間較長，因此采取異步獲取的方式可以避免由于網絡問題帶來的結果丢失。也因為語音轉寫系統通常是非實時處理的，這種工程形态也給了識别算法更多的時間進行多遍解碼。而長時的語料，也給了算法使用更長時的信息進行長短期記憶網絡建模。在同樣的輸入音頻下，此類型産品形态犧牲了一部分實時率，花費了更高的資源消耗，但是卻可以得到最高的識别率。在時間允許的使用場景下，非實時已錄制音頻轉寫無疑是最推薦的産品形态！

典型應用場景：如字幕配置，客服語音質檢，UGC語音内容審查

概念厘清

1、離線VS在線

在訊飛開放平台的産品定義和較多的客戶認知中，離/在線的區别在于識别過程是否需要通過雲端請求，即識别引擎是在雲端還是本地。而雲計算中的離/在線産品的引擎都處在雲端，區别在于在計算過程中，客戶端是否需要與雲端進行實時數據交互，即上述所述的音頻流和非實時已錄制音頻轉寫。兩者的定義有沖突，因此并不建議使用離/在線概念進行相關産品定義。

2、8K VS 16Khz采樣率語音模型

在衆多語音雲服務廠商中，會根據音頻采樣率進行分類，從而訓練出更适合各類采樣率的語音模型，最典型的為8K和16K模型。原始音頻信息保留越多越有利于識别率的提升，因此，16K音頻采用16K語音模型，其識别率會普遍高于8K音頻采用8K模型。

3、語音識别VS語義識别

語音識别是語義識别的前提基礎。語音識别将聲音轉化成文字，語義識别提取文字中的相關信息和相應意圖，通過執行模塊進行相應的問題回複或者反饋動作。

結語（栗子結合了一小丢丢語義）：

最後舉一個栗子作為收尾：“叮咚叮咚，給小編這篇文章點個贊呗。”，在無後台配置的情況下，封閉域的語音識别系統會拒識這段語音，開放域的識别系統卻能夠識别這段語音，返回相應的文字結果。而現階段的開放域語義系統在大概率情況下，還是會回複得比較生硬，并且也不會自動識别出相應的意圖并做出指令。按照現有的比較通用的方法，這個功能需要使用封閉域的語義識别在後台預先配置相關答案，并且根據預先配置的信息抽取意圖，再根據意圖類别和槽位信息執行相應的動作——即調用微信的點贊接口（假設可以）進行相應的點贊操作。

聽起來好繞呀，是不是覺得還是自己手動點個贊簡單粗暴省事得多了呢？然而，一切現代人類做起來自然而然&毫不費力的動作，卻都是建構在經過了億萬年的學習進化，兆億次閉環重複練習的智人基因！而任何的人工智能技術也是需要一個巨量的數據訓練和一定的演變周期。并且在所有的科技發展進程中，率先取得突破并且在應用領域産品成熟化往往都是在封閉域，亦如現在正處封閉域産品化的語義識别（如：AIUI，echo等），而語音識别的産品成熟化已經走過了封閉域到達了開放域，正在向各行各業輸送人工智能的力量！

附圖：語音識别産品類别圖

ai語音識别行業發展（語音識别類産品細分及其應用場景）2

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技蘋果新機怎麼看開機幾次了
蘋果新機怎麼看開機幾次了?如果開機背景是黑色則蘋果logo即為白色，如果開機背景為白色則蘋果logo顔色為黑色，我來為大家科普一下關于蘋果新機怎麼看開機幾次了?以下内容希望對你有幫助!蘋果新機怎麼看開機幾次了如果開機背景是黑色則蘋果logo... 2022-12-01
科技筆記本内存條跟固态硬盤區别
筆記本内存條跟固态硬盤區别?此前經常有電腦小白咨詢我“128GB内存夠不夠”之類的問題，很明顯這是将内存和硬盤搞混了如果你也分不清内存和硬盤，那麼很有必要看下去本文主要介紹目前筆記本中常見的内存類型，并且告訴你怎麼判斷内存的好壞，下面我們就... 2022-10-24
科技火車上手機掉馬桶裡
上廁所玩手機，這種習慣不僅會影響健康，有時還會給自己帶來意想不到的麻煩。近日，在廣西南甯，有位旅客就在列車上邊上廁所邊玩手機，結果沒想到，手機直接從排污管掉了出去，鐵警夜間徒步了4公裡才幫旅客找回了這部手機。2月3日夜間，鐵路警方接到旅客唐... 2023-03-01
科技手機銷量分析報表
IT之家9月29日消息，Counterpoint公布的最新研究顯示，2022年第二季度，全球手機的收入同比下降2%，環比下降15%至958億美元。全球手機營業利潤同比增長6%至131億美元，排名前五的手機制造商貢獻了總收入的80%左右。報告... 2023-03-19
科技科大訊飛智能會議系統流程圖
日前，國内知名的互聯網數據咨詢機構艾瑞咨詢發布了《2021年中國企業智慧通信産品研究報告》，報告聚焦辦公協作、智慧監控與高清顯示等三類企業智慧通信産品。其中辦公協作産品包含視頻會議産品、在線辦公産品及語音調度産品。科天章魚雲作為視頻會議産品... 2022-12-18
科技蘋果11更新ios14.5殺後台嗎
《永劫無間》是一款以生存競技為核心玩法的遊戲，在曝光初期就被玩家貼上了“吃雞”、“武俠”“國風”等标簽，但遊戲想要表達的東西卻不止如此，除了多人競技外，《永劫無間》還擁有一套出色的場外培養機制，讓玩家在享受吃雞遊戲樂趣時，也能體驗到武俠遊戲... 2022-12-09
科技工程裝修管理軟件
裝修裝修施工項目管理系統軟件有監督裝修員工的作用，在裝修過程中是否偷懶，是否偷取材料，中飽私囊，并且用戶能夠實時觀看裝修進度和情況，節約用戶節約城市跑的時間和金錢和裝企追溯時間成本，而且家裝工地管理軟件能夠在裝修初期提供一些裝修業主想要裝修... 2022-11-16
科技手機藍牙的主要功能
早期的時候，我們經常使用“藍牙”功能來傳輸文件，到了現在，我們有了更加便捷的傳輸方式，“藍牙”也就很少用了。但是，“藍牙”的功能可不是隻有傳輸文件這麼簡單，它還有很多用處。⒈網絡共享我們現在很多人都是通過熱點來共享網絡，其實，藍牙也可以。... 2023-02-06
科技采耳用什麼工具舒服
沒有系統專業采耳技術培訓的人可能不太了解，會以為采耳就是和我們平常自己掏耳朵一樣，就是簡單用個掏耳勺把耳屎掏出來就好了。那其實把耳屎掏出來隻是最簡單的，最基礎的要求。采耳與我們自己掏耳朵最大的區别就是在于它是利用我們耳朵比較敏感的特點來給我... 2022-12-13
科技順豐快遞丢失手機怎麼賠償
順豐快遞丢失手機怎麼賠償?9月6日，一則“順豐寄丢11000元手機僅賠1000元”的話題登上微博熱搜，接下來我們就來聊聊關于順豐快遞丢失手機怎麼賠償?以下内容大家不妨參考一二希望能幫到您!順豐快遞丢失手機怎麼賠償9月6日，一則“順豐寄丢11... 2022-11-05
科技當前的大盤還能定投嗎
近期，國家統計局公布7月份的中國制造業采購經理指數（PMI）為49%，比上月下降1.2個百分點，位于臨界點以下，引發了熱議，那麼，PMI到底是什麼？對基民有何作用？什麼是PMI？PMI指數中文意思是“采購經理人指數”，這個指數是由國家統計局... 2023-01-20
科技台州市各區人口數量
2018-12-2016:24|台州新聞客戶端截至2018年末，台州戶籍人口數為605.4萬人，比上年淨增長1.87萬人，目前全省排名第三，其中男性人口比女性人口多了127201人，男女性别比為104.29。城鎮人口270.73萬人，占總人... 2022-12-15
科技會計憑證生成明細表
【十二張會計憑證模闆，錄入數據可直接使用，内附财務報表管理系統】随着時代的發展，現在很多公司都已不再使用手寫憑證，越來越多的會計習慣使用表格來代替手寫，今天小編就給大家分享整整十二張會計憑證模闆，包含收款憑證、付款憑證、轉賬憑證等，内附财務... 2022-12-29
科技主闆自檢卡維修
電腦主闆檢測是電腦維修的基礎，在很多時候我們都會遇到種種狀況，比如顯示器不顯示，藍屏，頻繁死機，主闆不加電，CPU不工作，開機沒反應，主闆接電源自己啟動，電腦關機CPU風扇依然轉動，南北橋開焊或損壞，主闆故障可以說是千變萬化，也許一個小小的... 2023-01-21
科技和骁龍835相當的處理器
不知道從什麼時候開始，高通骁龍的處理器遭到了衆多用戶的吐槽，“火龍”、“炎龍”處理器成為了其專屬代号。不過在骁龍曆代處理器中，其實還是有很多體驗不錯的處理器，也得到了衆多用戶的認可。所以在本期，我就盤點三款最受用戶好評的骁龍處理器，看看有沒... 2022-12-13
科技安卓系統隐藏功能設置
許多安卓手機用戶都有這麼的感受，安卓手機用久了會覺得卡頓、切換應用不流暢等影響手機的使用體驗的狀況時有發生。本來想要手機運行流暢，通過備份數據恢複出廠設置或刷機，就可以像使用新手機一樣。但假如你不會刷機又不想恢複出廠設置，那該怎麼辦？其實隻... 2023-01-02
科技一鍵轉漫畫軟件
随着短視頻地不斷興起，很多人喜歡自己制作拍攝短視頻上傳到網絡上，各種各樣的風格，有清新學院風、舒适田園風，還有的人喜歡使用一些特效，把自己變成漫畫風格的，那你知道把視頻變漫畫的手機軟件叫什麼嗎？感興趣的小夥伴來看看吧！推薦一：借助“提詞全能... 2022-12-14
科技手機qq怎麼創建群
手機qq怎麼創建群?打開最新版手機QQ，點擊主界面右上角“加号”，選擇第一項“創建群聊”在選人創建界面中，選擇想要一起聊天的好友，點擊“立即創建”即可，今天小編就來說說關于手機qq怎麼創建群?下面更多詳細答案一起來看看吧!手機qq怎麼創建群... 2022-06-02
科技設備與管理系統包括哪些
設備管理系統功能有哪些？随着工業生産發展，設備在現代化生産中作用和影響日益擴大，設備管理在企業管理中也顯得越來越重要；通過設備管理系統可實現生産加工中設備的信息化管理。那設備管理系統功能有哪些呢？設備管理系統功能：1、固定資産管理加強設備資... 2022-11-05
科技 linux為什麼安裝不了ifconf...
編譯linux内核時，一般會先用makeoldconfig指令配置.config文件，網上資料說makeoldconfig會用到當前目錄中已經存在的.config文件，那如果當前目錄中沒有.config文件呢？此時makeoldconfig... 2023-03-26
科技如何将文件存儲到U盤裡的方法
如何将文件存儲到U盤裡的方法?将我們的U盤插入電腦USB接口，當U盤與電腦連接成功，在我們電腦的右下角會出現“打開U盤”的提示并顯示U盤的可用存儲空間，今天小編就來聊一聊關于如何将文件存儲到U盤裡的方法?接下來我們就一起去研究一下吧!如何将... 2022-07-08
科技造夢西遊4手機版唐僧打法
《造夢西遊4手機版》中芙蓉仙子關卡用唐僧怎樣打可以快速通關？下面小編為大家帶來了唐僧逆襲芙蓉仙子打法攻略，希望這篇攻略能夠幫助大家，我們一起來看看吧！造夢西遊4手機版boss打法解析：1、bug打法：坐騎下來後，在平台上，水魔爆到最後一滴血... 2023-02-13
科技人力資源管理績效考核計算題
人才，是企業最大的資産。人事管理質量的高低，直接影響着企業的核心競争力，随着企業規模不斷擴大，人事管理也變得越來越複雜。在實際工作中，不少人事每天被一大堆瑣事纏身，員工信息不能全面記錄和掌握，人才培養和考核更是無從下手。在傳統人事管理中，你... 2022-11-05
科技軟件流程圖怎麼畫
軟件流程圖怎麼畫?進入該在線網站中，選擇首頁面中的進入畫圖就可以進入新建頁面，選擇流程圖進行新建使用，我來為大家科普一下關于軟件流程圖怎麼畫?下面希望有你要的答案，我們一起來看看吧!軟件流程圖怎麼畫進入該在線網站中，選擇首頁面中的進入畫圖就... 2022-06-02
科技網上買筆記本電腦怎麼看配置
網上買筆記本電腦怎麼看配置?，今天小編就來聊一聊關于網上買筆記本電腦怎麼看配置?接下來我們就一起去研究一下吧!網上買筆記本電腦怎麼看配置互聯網時代的到來使計算機越來越受歡迎。可以說，基本上每個家庭都配備了一台計算機，許多家庭甚至擁有一台以上... 2023-01-20
科技如何看手機信号強度
嗨，大家好，我是猴叔~現在大家購買手機一般都看配置，但是還有一個重要指标不容忽視，就是信号的強弱。很多小夥伴還認為手機信号格滿格信号就不會差？那你就大錯特錯了！細心的朋友會發現，有時候信号滿格信号也很差？這究竟是什麼原因造成的呢？今天猴叔就... 2023-01-02
科技連環受賄罪案例
來源：中國新聞網中新網北京4月29日電28日下午，中央紀委國家監委網站刊登了一份落馬官員的忏悔書，作者是曾任重慶市政協人口資源環境建設委員會副主任的何勇。随着忏悔書公布，這位落馬廳官的大量貪腐細節也随之曝光。圖片來源：中央紀委國家監委網站截... 2023-01-05
科技英雄聯盟裝備介紹新
《英雄聯盟》多年來憑借優秀的遊戲平衡機制，收獲了廣大玩家的喜愛，現在這款遊戲的生态平衡卻悄然發生了變化。這個變化是什麼呢？是裝備系統，這個神話，特效的裝備時代。這個裝備系統讓輸出變坦克，讓坦克變脆皮，讓戰士無敵。你現在玩《英雄聯盟》有多久沒... 2022-12-02
科技發過來的pdf文件怎麼編輯
發過來的pdf文件怎麼編輯?我們如何編輯PDF文件的内容呢？大家在日常生活中，在學習或辦公場所，都會遇到PDF文件，有時候我們收到或者是自己做成的PDF文件，在檢查時發現有的地方出錯了，重新做的話會比較麻煩，如果能夠直接在PDF文件上編輯就... 2022-10-18
科技哪個租房軟件最靠譜
現如今，網絡辦公室、購物、語音視頻已經發展得非常成熟了，同時網絡也讓大家庭之間的聯系變得更為緊密，許多人在生活中也離不開網絡，比方說在買房子租房子的時候也會現在網絡了解以下房屋的信息，參考别人的評估，那麼租房用什麼驅動好用呢?下面就随小編同... 2022-11-07

tft每日頭條

> 科技

> ai語音識别行業發展

ai語音識别行業發展

相关科技资讯推荐

热门科技资讯推荐

网友关注