主流語音識别技術-tft每日頭條

主流語音識别技術

生活更新时间:2025-11-23 21:00:41

第一章節可參考

● 第1節: 端到端語音識别基礎

CTC目标函數

Attention-based Encoder Decoder

聯合建模

神經網絡類型

流式語音識别

● 第2節: Wenet中的神經網絡設計與實現

Subsampling網絡

Encoder Block

模型定義

創建模型

前向計算

其他接口

模型入口 ASRModel

Encoder網絡

Attention based Decoder網絡

CTC Loss

Attention based Decoder Loss

網絡的完整結構

● 第3節: 進階話題:Mask

Subsampling中的mask

Conformer Block中的Conv的mask

MultiHeadedAttention Module的Mask實現

Chunk-based mask

處理Padding對Loss的影響

處理模型輸入Padding

問題1:Batch Padding

問題2: 自回歸

問題3: Chunk-Based Model

Encoder中的mask

Decoder中的mask

本文講解第四章

● 第4節: 進階話題:Cache

Runtime流式解碼

Python流式解碼

BaseEncoder.forward_chunk()分析

offset

subsampling内部

subsampling_cache

elayers_output_cache

conformer_cnn_cache

進階話題:Cache

标準的forward是整個序列進行計算，但是在流式推斷時，需要chunk級别的forward，因此需要引入cache的概念，即當前chunk的進行前向計算時，需要拿到上次前向的一些結果作為輸入。

什麼是cache？

對于流式推斷，輸入是一個個chunk的到來，對第i個chunk，當計算第k層網絡的輸出時，由于網絡結構存在對左側上下文的依賴，需要依賴第k-1層網絡裡在i之前的一些chunks的輸出。如果對于當前到來chunk，将其和依賴的chunk序列（比如10層self-attention層，每層依賴左側4個chunk，則累積起來需要依賴左側40個chunk）拼起來作為網絡輸入進行前向，其計算量會比較大。對于那些已經計算過的chunk，可以将那些在計算下一個chunk的輸出時需要的中間量保存下來，從而減少重複計算。這種方式就叫cache。

另外，wenet的網絡在設計時，對于因果卷積和self-attention的左側上下文都使用有限長度，因此無論序列多長，每次cache的大小是不變的（不增長）。

僅僅encoder部分涉及chunk計算時的cache。

● 對于CTC decoder，由于是線性層，不需要cache。

● 對于AED decoder，是在計算完整個序列的encoder輸出後進行rescoring，不涉及chunk。

Runtime流式解碼

asr_model.py中的forward_encoder_chunk()通過jit導出，用于C runtime，其内部使用了encoder.py中的forward_chunk()函數。

主流語音識别技術（語音識别引擎Wenet系列四）1

Python流式解碼

如果設置simulate_streaming為True，則會模拟runtime流時解碼的過程，将數據分成chunk，依次進行前向計算。該方法的結果，和送入整個序列通過mask進行流式模拟的結果應該是一緻的。

主流語音識别技術（語音識别引擎Wenet系列四）2

forward_chunk_by_chunk()的内部也是使用的forward_chunk()函數。

BaseEncoder.forward_chunk()分析

xs是當前的chunk輸入，由于對于單個chunk的前向計算，需要之前的chunk的計算得到的信息，因此這裡需要傳入相關的三個cache信息。

主流語音識别技術（語音識别引擎Wenet系列四）3

● subsampling_cache:torch.Tensorsubsampling的輸出的cache。即第一個conformer block的輸入。

● elayers_output_cache:List[torch.Tensor]第1個到最後1個conformer block的輸出的cache。也就是第2個conformer block的輸入和CTC層的輸入。

● conformer_cnn_cache:List[torch.Tensor]conformer block裡的conv層的左側依賴的輸入cache。

cache的大小

● subsampling_cache和elayers_output_cache的大小由self-attention是對左側的依賴長度required_cache_size決定。decoding_chunk_size是解碼幀級别的chunk大小, num_decoding_left_chunks是self-attention依賴的左側chunk數。

主流語音識别技術（語音識别引擎Wenet系列四）4

● conformer_cnn_cache的大小和required_cache_size無關，由casual網絡的左側上下文lorder決定。

函數返回了四個值，包括當前chunk輸入對應的輸出，更新後的三個cache。

該函數的整個計算過程請參考下圖

主流語音識别技術（語音識别引擎Wenet系列四）5

offset

當按chunk進行輸入時，不能直接得到chunk在序列中的位置，需要傳入offset給出該chunk在整個序列裡的偏移，用于計算positional encoding。

主流語音識别技術（語音識别引擎Wenet系列四）6

subsampling内部

subsampling内部的計算雖然存在冗餘，但是不進行cache。一個是其實現比較複雜，另一個原因是subsampling的計算量占比不大。

subsampling_cache

subsampling的輸出的cache。即第一個conformer block的輸入。

主流語音識别技術（語音識别引擎Wenet系列四）7

elayers_output_cache

第1個到最後1個conformer block的輸出的cache。也就是第2個conformer block的輸入和CTC層的輸入。

主流語音識别技術（語音識别引擎Wenet系列四）8

注意，此處的xs不是當前的chunk，而是當前chunk cache輸入，所以其長度不是chunk_size, 而是chunk_size required_cache_size。

主流語音識别技術（語音識别引擎Wenet系列四）9

layer()對應着wenet/transformer/encoder_layer.py中的ConformerEncoderLayer.forward()。下面是其具體過程。

主流語音識别技術（語音識别引擎Wenet系列四）10

主流語音識别技術（語音識别引擎Wenet系列四）11

注意，self-attention之前的一些前向計算其實仍然存在冗餘，如果對attention層的輸入進行cache，而不是對conformer block層的輸入cache，可以進一步降低計算量。

conformer_cnn_cache

conformer block裡的conv層的左側依賴的輸入cache。

conformer_cnn_cache大小為lorder，即因果卷積左側依賴。

主流語音識别技術（語音識别引擎Wenet系列四）12

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活拔河有啥小技巧
1、基本姿勢：不要彎蹲而應全身伸展。2、身體方向：絕對不要身體側向壓繩。3、預備站姿：膝蓋外側彎重心... 2023-06-30
生活松茸的保存方法
1、松茸的保存有三種方法：冷藏保存、冷凍保存、切片曬幹保存。2、冷藏保存：把鮮松茸放在冰箱中進麼冷藏... 2023-06-30
生活建築防水的方法
1、建築防水施工的時候，滾筒底漆是防水結構的第七步。此方法的目的是為了增加塗層的基材的密合性，一般都... 2023-06-30
生活小雪節氣的習俗
1、小雪節氣時，北方地區的溫度開始跌到零點，華北地區，開始降雪；東北地區初現凍土現象，應了“小雪地封... 2023-06-30
生活 wifi電視怎樣找空中課堂
wifi電視要找空中課堂的話，一般在應用中心找就可以。1、首次收看電視課堂，在電視機和機頂盒開機狀态... 2023-06-30
生活空調開2個月加熱除甲醛有效嗎
1、空調開2個月加熱除甲醛效果并不大。2、連續開兩個月的空調對一般家庭來說都太奢侈了，更何況這樣做也... 2023-06-30
生活麝香怎麼保存方法
1、其實我們的祖先很早以前就知道将陰幹的毛殼麝香用油紙包裹貯于缸中可達數年不腐,可視為麝香的早期保藏... 2023-06-30
生活液晶電視機如何保養
1、日常使用，避免連續、長時間工作，盡量避免長時間顯示同一張畫面。和顯像管電視一樣，液晶顯示屏也會因... 2023-06-30
生活野外求生生火小技巧
1、首先說在前面的就是我們之所以不帶打火機在戶外的時候，就是因為戶外環境的惡劣，打火機很可能是會失靈... 2023-06-30
生活古北水鎮長城叫什麼
1、古北水鎮長城叫司馬台長城。2、司馬台長城位于北京市東北部密雲區北部的古北口鎮司馬台村北，緊鄰古北... 2023-06-30
生活松球保存長久的方法
1、去掉松果裡的雜質。這些雜質包括種子、苔藓和松針。清理時，你可以使用鑷子或者刷子。清潔得越細緻越好... 2023-06-30
生活立春朋友圈祝福語句子
1、北江之巅春來晚，午間雪化潤山川。晚視水浸土地堅，黑江流水冰疊山。忽聽江中有聲響，原是江冰報春喊。... 2023-06-30
生活微信如何弄中國頭像框
1、将微信打開,上面點擊【搜索】按鈕。2、接着在裡面搜索【央視互動服務】然後進入到裡面。3、然後在裡... 2023-06-30
生活怎麼解除對方把我拉黑
1、被拉黑的用戶無法解除本賬号在對方黑名單的狀态的。2、對方拉黑你之後，微信不能聊天，隻有用其他微信... 2023-06-30
生活關于主卧的十大禁忌你碰了哪條
1、主卧房不宜太亮：俗話說：「光廳暗房。」意指不同于之重明亮，卧房則重的是浪漫，所以不可太過光亮。如... 2023-06-30
生活快速消滅蜂窩的方法
1、對付任何馬蜂窩，是可以利用氣霧殺蟲劑處理的，殺死之後再取下來。2、硫磺煙熏也是消滅馬蜂的大殺器。... 2023-06-30
生活去除膠印小妙招
去除膠印小妙招：1、洗甲水清除膠印，滴一些女孩子清洗指甲油用的洗甲水。2、浸泡一會，再拿紙巾擦拭。3... 2023-06-30
生活魚酸菜是什麼菜做的
1、魚酸菜主要是用白菜或青菜腌制而成。2、酸菜魚做法：黑魚600克，泡酸菜100克泡紅辣椒25克，泡... 2023-06-30
生活怎樣判斷老人即将去世
1、人有差異也有不同的，一部分老人臨終前可出現回光返照的現象，另一部分老人病情進一步惡化，昏迷不醒出... 2023-06-30
生活胸花戴哪邊
1、胸花原本都是别在西裝外套的左領，有些考究的西裝在那個位置有個扣眼，就是放胸花的設計。不過現在規矩... 2023-06-30
生活尿素是有機肥還是無機肥?為什麼?
無機肥。1、有機肥的一個最大作用就是能夠增加和更新土壤有機質，促進微生物繁殖，改善土壤的理化性質和生... 2023-06-30
生活羊毛衫洗縮水了怎麼複原
1、因為羊毛衫的彈性比較大，所以對于購買了羊毛衫的人來說，羊毛衫縮水了确實是一個頭痛的問題。我們可以... 2023-06-30
生活古董哪裡可以鑒定
1、可以到古董鑒定公司去進行鑒定。2、對比法，這是自古以來最常見的鑒定方法，通過對比已知的真品，來判... 2023-06-30
生活鎂粉塊是用什麼做的
1、鎂粉塊就是金屬鎂的粉末狀态。2、鎂是一種金屬元素，元素符号是Mg。英國戴維于1808年用鉀還原氧... 2023-06-30
生活峨眉山金頂的過去的曆史有哪些
1、解放初期，全山寺廟僅存43座。1982年中發19号文件下發後，認真落實宗教政策，寺廟得到逐漸恢複... 2023-06-30
生活羅莊區黃山鎮要搬遷嗎
1、羅莊區黃山鎮要搬遷嗎？不搬遷。2、黃山鎮位于羅莊區南部，地處臨、郯、蒼平原，位于臨沂（羅莊）、郯... 2023-06-30
生活不鏽鋼水桶清洗妙招
1、鏽鋼制品表面有灰塵以及易除掉污垢物的，可用肥皂，弱洗滌劑或溫水洗滌。2、不鏽鋼表面的商标、貼膜，... 2023-06-30
生活商家好評回複優美語句
1、親，很高興您與朋友都開心，小店的一件寶貝能換來親們的開心，就是小店最大的成功。将來如果有幸還能與... 2023-06-30
生活草莓什麼季節成熟
1、草莓正常成熟的季節，應該是在5月15号以後，所以說草莓應該是春末夏初的當季水果。2、因為這個時候... 2023-06-30
生活在哪裡可以找到微信轉賬助手
1、進入微信，點擊搜索界面，搜索“微信轉賬助手”，即可出現。2、微信轉賬助手是一個微信的小程序，需要... 2023-06-30

tft每日頭條

> 生活

> 主流語音識别技術

主流語音識别技術

相关生活资讯推荐

热门生活资讯推荐

网友关注