機器之心報道
作者:澤南
完全不懂外語的你也可以拿起手機,和老外直接對話了:甚至不需要選擇彼此說着的是什麼語言。
遇到看不懂的單詞時,很多人會想到打開網易有道詞典 app 查詢。最近使用這個 app 的同學,可能會注意到一個新增的功能:
有道詞典的「對話翻譯」功能,現在可以自動檢測語言了。
除了自動識别語種,有道詞典還可以實現近乎實時的「同聲傳譯」,延遲不到一秒,而且在大多數 iOS 或安卓的智能手機上都可以實現。有了這樣的技術,兩個說着不同語言的人,隻需要一個安裝了有道詞典 app 的手機,就可以進行實時順暢的對話交流了。
這種神奇的功能,現在支持 11 個語種互相翻譯,這就意味着可以覆蓋全球超過一半的人口(有道詞典手動選擇語言互譯的話,則支持 44 種語言)。
語音識别語種,用的是圖像識别模型
讓手機快速自動識别語種,看起來是一個簡單的小功能,卻大幅度提升了使用的便捷性。在這背後,研發團隊投入的工作也是個有趣的故事。
目前人們每天使用的機器翻譯軟件中的語音翻譯,一般都遵循着類似的工作流程:人口中說出的話,經過語音識别(ASR)系統轉換成文字,再通過神經機器翻譯模型(NMT)轉換為目标語言,最後再通過語音合成(TTS)系統轉換成目标語言的語音才算完成。
語音翻譯的級聯模型(圖片來自 MSRA)。
這樣一套自動流程也有手動的步驟——需要預先由使用者選好轉換語言的類型。有道新上線的功能直接省去了這一步驟:通過在整個級聯流程的最前端加入語音活性檢測(VAD)和自動語音識别技術(LID),現在你在不用切換翻譯種類的情況下,就能和人即時展開對話了。
有意思的是,有道識别語音的 LID 模型,源自在圖像識别領域大放異彩的 ResNet(殘差神經網絡)。在人工智能業内,這是一個「你必須要知道的模型」,ResNet 曾大幅刷新了 ImageNet 競賽的記錄,并啟發了衆多計算機視覺的新方法,但在語音領域,用 ResNet 的落地技術還比較新鮮。
為了讓擅長識别圖像的 AI 模型能夠處理語音内容,有道開發者們對原模型進行了特殊的修改和配置。在有道詞典使用的 LID 方法中,圖像 RGB 的三通道輸入被修改為語音的單通道,神經網絡模型也被壓縮到了僅有 2Mb 大小,讓其可以在離線狀态下識别語種。
「另外,圖片輸入到神經網絡中時通常是固定的尺寸,但語音識别領域中,我們經常遇到的是長短不一的内容,」這一新功能的主要貢獻者,有道 AI 語音算法工程師王海魏表示。「我們認為讓 ResNet 識别不同大小的内容是可行的方案,因此對模型進行了修改,也獲得了成功。」
在有道詞典 app 上,翻譯對話時語音識别的内容呈現流式過程,随着說話人輸入内容的增加,機器判斷準确度也在不斷提高。當「置信度」到達阈值時,系統就會開始調用随後的流程開啟翻譯,而有道 LID 給到的語種自動識别最快可以在 0.5 秒給出結果。
由手機端側 AI 模型啟動的過程既解決了翻譯準确度的問題,也優化了翻譯系統的反應速度。
讓手機自動識别語言的原理并不複雜,在目前的應用市場上,iPhone 在最新的 iOS 14 系統中使用了類似的技術。從效果上來看,對于帶口音的對話内容,有道的識别效果要好一些。
有道詞典 app(左)和 iPhone iOS 14 系統(右)的對話翻譯對比。在中文語境下,有道詞典給出的結果要更好。
這還是在有道詞典覆蓋了用戶基數更大、機型衆多的安卓系統的情形下實現的。
AI 技術落地,沒有想象那麼簡單
「一項技術的真正落地和參與數據競賽、寫論文會遭遇到的挑戰完全不同,有時甚至更難,」有道 AI 語音團隊負責人李慶說道。
有道的工程師們去年曾經參加了中國計算機學會、西北工業大學、上海交通大學、新加坡南洋理工大學等多家機構聯合舉辦的 INTERSPEECH2020「口音英語語音識别技術挑戰賽」。剛剛從學校畢業加入有道的吳昊、王海魏等人,僅準備了十天時間就在口音種類識别和英語語音識别兩個賽道上獲得了第二名、第三名的好成績。
在比賽結束後,該團隊将研究方案整理成論文發表,在基于目前最流行深度學習模型 Transformer 的技術上,研究人員開發出了一種基于端到端語音識别的口音分類算法,據了解該論文目前也被 ICASSP2021 接收。
有道參加 INTERSPEECH 2020 比賽團隊發表的論文。
實驗表明,有道提出的方法在測試集上達到了 72.39%的精度,在開發集上達到了 80.98%的精度。在 2020 年 INTERSPEECH 口音英語語音識别挑戰賽中,研究人員提交的系統在口音識别任務中排名第二。
更重要的是,他們在比賽中使用的方案,和如今有道詞典 app 中上線的功能思路相通。「研究這些屬性,歸根結底是希望能夠提升用戶在不同場景下使用産品的體驗,」王海魏表示。「我們希望用戶能夠在遇到不同口音、不同語種的情況下都能獲得更好的使用效率。」
相比打比賽,一項技術的工程落地是個長期過程。在有道 AI 團隊,人們總是希望産品能夠做到接近完美,LID 技術的叠代到最終上線花費了近四個月時間的打磨。
與手機自帶系統不同,有道詞典 app 需要适配大量不同品牌型号的手機,而其中的一部分可能配置較低,甚至有一些品牌的設備對于錄音功能的調用還會存在延遲。一個小小功能的上線,背後是研發人員無數次嘗試和努力。
這樣的工作很複雜,但有道一直在做。
為什麼有道翻譯如此好用?
有道翻譯擁有一個專注于技術落地的團隊,其中算法團隊的成員們主要根據業務的需求,調研、設計和實現各種相關算法,訓練各類模型。數據團隊的成員則不斷挖掘高質量訓練數據,并根據算法的要求,對數據進行清洗、分類、标注等工作。此外,高性能和研發團隊負責優化模型訓練的速度,實現推理引擎,優化服務性能,提供在線和離線的翻譯能力。
有道 AI 語音團隊。
在分工合作下,有道翻譯提供的産品不斷演進,逐漸成為了國内大量用戶的首選。目前,網易有道全線産品月活躍用戶 (MAU) 已經超過了 1.2 億。
經常需要對外文翻譯的同學可能會發現,百度、谷歌和有道翻譯等系統在不同領域的内容上各有勝負,其實在不同領域上質量的差異,大多是由于訓練語料的領域分布引起的。如果為每個領域訓練專用的模型可以得到較好結果,但成本較高,如果希望一個模型能夠适配多個領域,一方面可以增加訓練數據,另一方面也需要在模型,或者訓練過程中對領域語料的使用進行優化,如在模型訓練時引入領域信息,或者訓練時對某些領域的語料進行重采樣等。
有道的翻譯系統支持用戶自定義術語表的擴展,可以根據用戶提供的不同術語來實時優化翻譯結果,給出正确的譯文。
「我們在訓練中采取了多任務學習的方式,增加了待翻譯文本的領域預測,使得整個系統在翻譯不同的領域時都會較好的質量,」有道 AI NLP 團隊負責人王瑾玫表示。「另外,在一些對速度不太敏感的應用場景,我們探索了基于領域記憶庫的實時優化算法,極大的提升了對應領域的翻譯質量。」
中英文混合的内容也可以被有道詞典準确識别。
自谷歌 2016 年在翻譯系統中整合神經網絡(GNMT)已過去近五年時間,而網易有道也緊随其後在 2017 年年初上線自研的 NMT,當前業界使用 AI 翻譯的技術相比過去已經有了顯著提高,但在一些真實場景中仍然能看到很多亟待解決的問題。即使是在 Transformer 被廣泛使用的今天,翻譯質量還有不少可以提升的空間,比如低資源甚至零資源語言的翻譯質量問題,雖然在多任務學習和預訓練模型方法的使用上有了改善,但還可以再進一步提升。
「使用 Transformer 模型也存在缺點,需要根據不同的任務場景進行一些優化,如在長句推理時計算量比較大,堆疊深度時模型能力難以提升,」王瑾玫說道。「因此在有道翻譯上,我們對離線應用,深度模型應用等任務上都做了相應的優化。」
有道的硬件産品詞典筆現在已經發展到了第三代,除了快速的翻譯能力之外,還可以給你的口語發音打分。
一個學習工具,要想從 0 到 1 獲得人們的青睐是一件比較困難的事情,目前在教育領域裡,像有道翻譯這樣熱門的産品為數不多。另一方面,對于有道來說,從「1 到 1.1」也是一種重要的創新。
未來,有道翻譯的算法團隊還會沿着應用先進技術的道路前進,讓翻譯系統支持更多語言,實現更高的準确率,并進一步降低翻譯的延遲。
當然,他們也對新技術保持開放。「除了經典方法和流行的技術之外,我們也一直在關注那些未來幾年才有希望落地的技術。」李慶說道。
*應要求,文中所列人員皆用化名。*
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!