機器翻譯技術在近年來取得了長足進步,并且逐步逼近平行對譯的境界。在西方諸語種之間,機器翻譯的準确率已經穩居90%以上。 (人民視覺/圖)
機器翻譯技術在近年來取得了長足進步,已經在諸多語種與諸多領域實現了從0到1的突破,并且逐步逼近平行對譯的境界。在西方諸語種之間,機器翻譯的準确率已經穩居90%以上,即便是長期以來難度頗大的中-英或是英-中對譯,機器翻譯的準确率也在穩步增長,Deep L與Google Translator的成就屢屢令人驚呼,人類是不是即将退出翻譯這門古老的職業。
然而,幾年前人們的樂觀與預言,在2022年并沒有實現。人工翻譯不但沒有退出曆史舞台,甚至還在機器翻譯的輔助下多掙了不少錢。另一方面,機器翻譯似乎總面臨那麼一點瓶頸,哪怕99%的内容都不出錯,仍然會在最後一公裡卡殼,不是需要人工查漏補缺,就是弄出謬以千裡的笑話。
為什麼機器翻譯仍然無法完全獨立工作,以至于完全取代人類?這個問題有兩個層次:一、人工智能自身的工作機制;二、翻譯的本質。
人工智能的理念早在冷戰期間就已提出,為何隔了幾十年才有跨越式的進展?原因就在于,人類收集、存儲與調用數據的能力有了飛速進步,成功地将機器學習的原理從“基于規則”變成了“基于數據”。大數據讓機器得以運用“監督學習”(有數據标簽)、“無監督學習”(無數據标簽)與“強化式學習”(甚至不需要數據)這樣的方法,用機器語言提出并解決問題,然後轉譯為自然語言,解答人類的難題。但在最後,所有類似的機器學習都要依賴數據。沒有數據,就不可能有人工智能。
機器翻譯是人工智能推動的,人工智能的工作機制則以“機器學習”為核心。機器語言有效利用數據,憑借強大的算力進行機器學習,有效轉譯并解答自然語言,已經成功在一個個領域攻城略地。
比如圍棋。一盤圍棋的可能性是一個天文數字,超過宇宙現存的原子總數。圍棋向來被認為是人工智能難以攻克的所在,但這個态勢在阿爾法狗出現以後也有了很大改觀。阿爾法狗隻需要自己與自己下棋,就憑借“強化式學習”獲得海量數據,依托圍棋自身的規則解答難題。人工智能棋手不知疲倦地訓練,盡管算力不可能窮盡宇宙原子總數,但也将人類棋手甩在了身後。
但在機器翻譯這個領域,人工智能需要處理的數據量顯然遠遠超過了一盤圍棋的無數種可能。自然語言的龐大語料庫首先就是對機器算力的挑戰,它需要在浩如煙海的文獻裡爬梳整理;其次,自然語言與機器語言之間的轉換,很難有圍棋那樣明确的規則。
與其說人工智能在處理自然語言,倒不如說它要面對的是兩種或者多種語言構成的全部公共知識,甚至還有一些不那麼公共的知識。這是個浩大的工程,哪怕人工智能結合了多種機器學習的機制,如何向其投喂語料庫數據也是個道阻且長的任務。
不但如此,語言的演變速度非常非常快,熱詞往往在幾年之間就已經不再流行,或者是意義全失,這一過程是機器無法或者難以理解的。不同語種的自然語言還衍生出了完全不同的公共知識,哪怕是同一句話,在語境不同或者說話人主體不同的情況下,意思可能就完全不同——這還是沒有考慮到斷句、語氣等連自然語言也會産生歧義的情況。比如說,“顆粒度”與“賦能”這些互聯網公司黑話,物理學家與互聯網産品經理所說的必定不是同一個意思。
如果某個學科、某個詞語需要實現兩種語言/公共知識之間的第一次對譯,甚至是在同一門語言裡的提喻(metonymy),那麼這項任務仍然需要仰賴人工翻譯。這并不代表機器的算力有限,也不意味着機器的數據處理能力不強,而是機器還不能像人類大腦的神經網絡一樣理解自然語言的生發機制,自然語言也無法在自然科學以外的學科領域與機器語言一一對應。甚至,自然語言本身仍然擁有很大難以為機器語言理解的空間。問題逼到這一步,已經變成了一個“機器能否像一個真正的人一樣理解、思考、表達,擁有與人類一樣的欲望與本能,過着像人類一樣的生活,真正學會一門語言”——這就是圖靈測試邊界以外的更深層次問題了,也是科幻電影至今都無法完美預測的前景。
這并不是在貶低人工智能。實際上,人工智能對人工翻譯提出了愈來愈大的挑戰。人工翻譯在譯介一門語言時,首先需要掌握至少兩門語言背後的全部公共知識。顯然,人類大腦在數據量與算力上根本無法與機器相比。在人類知識總量持續突飛猛進的今天,優先用機器解決已經成熟的公共知識對譯工作,集中精力處理機器難以揣摩的公共知識,借助機器翻譯節省精力與時間,已經是資深譯員的不二之選。即便機器翻譯尚未完全取代人類,人類也已經離不開機器翻譯了。
(作者系互聯網從業者、譯者)
(本文僅為作者個人觀點,不代表本報立場)
克之
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!