tft每日頭條

 > 生活

 > 在谷歌翻譯中穩定實時語音

在谷歌翻譯中穩定實時語音

生活 更新时间:2024-12-22 23:07:17

Google Translate應用程序中 的轉錄功能可用于為會議和演講等活動創建實時的,翻譯的轉錄,或者隻是在餐桌上以您不懂的語言編寫一個故事。在這樣的設置中,及時顯示翻譯後的文本很有用,以幫助讀者保持即時參與。

但是,使用此功能的早期版本,翻譯後的文本會遭受多次實時修訂,這可能會分散注意力。這是由于源和翻譯文本之間的非單調關系,其中源句子末尾的單詞會影響翻譯開始時的單詞。

在谷歌翻譯中穩定實時語音(Google翻譯中的實時語音翻譯)1

筆錄(舊)—左:來自語音識别的原始筆錄。右:顯示給用戶的翻譯。經常對譯文進行更正會幹擾閱讀體驗。

今天,我們很高興地介紹Google Translate應用程序中最近發布的轉錄功能更新背後的一些技術,該功能可顯着減少翻譯修訂并改善用戶體驗。有兩篇論文介紹了實現這一目标的研究。第一個制定了适合實時翻譯的評估框架,并開發了減少不穩定的方法。在第二表明,這些方法都非常好比較的替代品,同時仍保留原有方法的簡單。結果模型更加穩定,并在Google Translate中提供了明顯改善的閱讀體驗。

在谷歌翻譯中穩定實時語音(Google翻譯中的實時語音翻譯)2

筆錄(新)—左:來自語音識别的原始筆錄。右:顯示給用戶的翻譯。以一點點延遲為代價,現在很少需要更正翻譯。

評估實時翻譯

在嘗試進行任何改進之前,很重要的一點是首先了解并量化地衡量用戶體驗的各個方面,以期最大程度地提高質量,同時最大程度地減少延遲和不穩定性。在“用于長格式,同時,口語翻譯的重新翻譯策略”中,我們開發了一種實時翻譯評估框架,此框架自此一直指導我們的研究和工程工作。這項工作使用以下指标提出了一項績效指标:

  • 擦除:測量由于不穩定而給用戶帶來的額外閱讀負擔。它是最終翻譯中每個單詞被删除和替換的單詞數。
  • 滞後:測量從用戶說出單詞到屏幕上顯示的單詞翻譯穩定之間經過的平均時間。要求穩定性避免了獎勵系統,該系統由于頻繁的修正而隻能快速運行。
  • BLEU分數:衡量最終翻譯的質量。中間翻譯的質量差異是通過所有指标的組合來捕獲的。

重要的是要認識到質量的這些不同方面之間的内在取舍。Transcribe通過在實時自動語音識别的基礎上堆疊機器翻譯來啟用實時翻譯。對于識别的成績單的每次更新,都會實時生成一個新的翻譯。每秒可能會發生幾次更新。這種方法将Transcribe置于3D質量框架的一個極端:它顯示了最小的滞後和最佳的質量,但是擦除率很高。了解這一點使我們能夠努力尋求更好的平衡。

穩定重新翻譯

減少擦除的一種直接解決方案是降低翻譯的更新頻率。沿着這條思路,“流式翻譯”模型(例如STACL和MILk)可以智能地識别出何時已接收到足夠的源信息以安全地擴展翻譯,因此無需更改翻譯。這樣做,流翻譯模型能夠實現零擦除。

這種流翻譯模型的缺點是它們再次處于極端位置:零擦除必須犧牲BLEU和滞後。相對于完全消除擦除,為偶爾的不穩定制定的少量預算可能會帶來更好的BLEU和滞後。更重要的是,流翻譯需要重新培訓和維護專門用于實時翻譯的專門模型。在某些情況下,這會排除使用流翻譯,因為對于支持100多種語言的Google Translate這樣的産品,保持精簡管道是重要的考慮因素。

在我們的第二篇論文“重新翻譯與同時翻譯的流式傳輸”中,我們表明可以微調我們原來的實時翻譯“重新翻譯”方法以減少擦除并實現更有利的擦除/滞後/ BLEU交易-關。在不訓練任何專業模型的情況下,我們對原始機器翻譯模型應用了一對推理時間啟發式方法-掩蔽和偏見。

在谷歌翻譯中穩定實時語音(Google翻譯中的實時語音翻譯)3

正在進行的翻譯的結尾傾向于閃爍,因為它更可能依賴于尚未到達的源單詞。我們通過從翻譯中截斷一些單詞直到觀察到源句的結尾來減少這種情況。因此,此屏蔽過程将等待時間換成了穩定性,而不影響質量。這與在流方法(如Wait-k)中使用的基于延遲的策略非常相似,但僅在推理過程中而不在訓練過程中應用。

神經機器翻譯常常在同樣好的翻譯之間“拉鋸”,造成不必要的擦除。我們通過将輸出偏向我們已經顯示給用戶的内容來提高穩定性。除了減少擦除,偏向還可以通過更早地穩定翻譯來減少延遲。偏向與掩蔽很好地相互作用,因為可能不穩定的掩蔽詞也可以防止模型偏向它們。但是,此過程的确需要仔細調整,因為高偏差以及掩蔽不足可能會對質量産生負面影響。

掩蔽和偏置的結合産生了高質量和低延遲的重新翻譯系統,同時幾乎消除了擦除。下表顯示了指标如何響應我們引入的啟發式方法,以及它們如何與上述其他系統進行比較。該圖表明,即使擦除預算很小,重新翻譯也超過了專為實時翻譯而訓練的零閃爍流式翻譯系統(MILk和Wait-k)。

在谷歌翻譯中穩定實時語音(Google翻譯中的實時語音翻譯)4

在有和沒有掩蓋和偏見的推理時間穩定啟發法的情況下,對IWSLT測試2018 Engish-German(TED演講)的重新翻譯進行評估。穩定度大大減少了擦除。由于偏見,以BLEU衡量的翻譯質量受到的影響很小。盡管有掩蔽,但有效延遲仍然保持不變,因為轉換會更快地穩定下來。

在谷歌翻譯中穩定實時語音(Google翻譯中的實時語音翻譯)5

WMT 14英德文上的重新翻譯與穩定化和專用流傳輸模型(Wait-k和MILk)的比較。通過偏移和掩蔽的不同組合獲得重新翻譯的BLEU滞後權衡曲線,同時每10個生成的擦除預算保持少于2個字的擦除預算。與無法進行更正并需要針對每個折衷點進行專門培訓的流模型相比,重新翻譯提供了更好的BLEU /滞後折衷。

上面概述的解決方案可以非常快速地返回不錯的翻譯,同時可以随着更多源句的使用而對其進行修訂。簡單的重新翻譯結構使我們能夠以最小的努力來應用我們最好的語音和翻譯模型。但是,減少删除隻是故事的一部分-我們也期待通過新技術改善整體語音翻譯體驗,這種新技術可以減少口譯時的延遲,或者可以在多人講話時提供更好的轉錄效果。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved