tft每日頭條

 > 生活

 > 谷歌英語在線有聲翻譯

谷歌英語在線有聲翻譯

生活 更新时间:2025-02-13 19:56:56

谷歌英語在線有聲翻譯(從TwitterAmazon學習90歲的牛津英語詞典這樣擁抱數字化)1

題圖來源:視覺中國

現在很少有人會知道,英語最開始是隻是屬于盎格魯-撒克遜(Anglo-Saxon)民族的語言,因為現代英語已經演變成了一種全球化“混合語言”。

“預計在2020年,中國的英語學習人數将會超過5億。這意味着在中國英語學習者的群體将超越美國總人口數。而在全球範圍内,這一群體數字将會是20億。”日前,牛津大學出版社全球業務總裁及詞典部總裁Casper Grathwohl 在接受钛媒體專訪時說。

英語的全球化普及,1928年問世的牛津大學出版社的《牛津英語詞典》(Oxford English Dictionary,OED)功不可沒。它一直被視為最全面和權威的英語詞典。不少對英語詞彙的學術研究都以 OED 作為切入點。而詞典對詞彙拼法的要求,影響了不同地區的書面英語。

谷歌英語在線有聲翻譯(從TwitterAmazon學習90歲的牛津英語詞典這樣擁抱數字化)2

1928 《牛津英語大詞典》 第一版(簡裝)

牛津大學出版社涉足印刷業最早可以追溯到1480年,是世界第二古老的出版社,僅次于英國劍橋大學出版社。一開始,隻作為印刷聖經、祈禱書和學術著作的主要印刷商。在19世紀中後期,牛津大學出版社承印了《牛津英語詞典》的項目,其業務也不斷擴充,包括英語語言文字教學書籍等,自此便開啟了全球化業務拓展的道路。

Grathwohl 已經在牛津大學出版社工作超過20年。從紙質圖書印刷到現在的在線詞典,他親眼見證了牛津大學出版社的曆史,也見證了整個科技演變的過程及其對行業帶來的影響。

經過九十年的發展,OED 多語言詞典的編撰有一套精密而複雜的流程。Grathwohl 介紹說,首先在搜集語料的過程中,要了解細分市場的需求,接着,他們會根據市場需求做針對性的調研并且出具調研報告。在此基礎上,團隊會先做一些樣本,利用樣本做面對面小組的深入調研,以找到解決市場需求最佳方式。

完成以上學術方面的工作之後,出版社會還要做一些财務上的分析,判斷是否具備足夠大的細分市場,預計未來是否有足夠的銷售額,以及以是以電子版還是紙質版的形式面世。

在 Grathwohl 的推動下,“牛津英語詞典”已經從紙質出版物轉型成為了語言數據服務品牌。

谷歌英語在線有聲翻譯(從TwitterAmazon學習90歲的牛津英語詞典這樣擁抱數字化)3

牛津大學出版社全球業務總裁及詞典部總裁Casper Grathwohl

“我們并不是想要把紙質的字典變成電子的字典,不是一個簡單的重複過程,而是希望字典的内容和使用,能夠融合在語言學習的過程當中。”Grathwohl 說。

最開始,OED 選擇了和美國矽谷的一些全球性的科技公司進行合作。具體操作的手法是,将牛津大學出版社搜集的所有的語料,包括日常生活中接觸到的英語詞彙進行加工,把它們變成智能化的語言數據,除了詞彙、語句、詞義之外,還會打标簽、加備注。

全球性的科技公司利用這些智能語言數據,開發成各種 APP 等數字産品和服務,增強英語學習者的日常體驗。

在将語言數字化和智能化的過程中,最關鍵的是“過濾”——篩選出最精準和最常被大家使用的語言到底是什麼。在虛拟世界中,數據非常龐大。通過累積專業的語料庫,以及專業語言學家處理的語言信息,同時基于一些語義規則來對語言進行分析。同時,OED團隊還會利用自然語言處理等科技手段在龐大的語料庫抓取所需信息。

“為什麼說這是非常困難的部分呢?因為我們處在與三十年前完全不同的情境,以往我們做編撰的時候,還會覺得素材不夠,現在我們已經被大量的語言所淹沒,數據有點太多了。”Grathwohl 告訴钛媒體。

這也是他們選擇與一些大型的全球性科技公司合作的原因。出版社将語言數據給到科技公司,幫助科技公司的 AI 進行學習,也協助他們進行一些翻譯工作。與此同時,大型的科技公司也會建立一些新的工具分析實際語言使用情況,然後把數據反饋給出版社,讓 Grathwohl 團隊後期做出更加精準、更加符合現在實際情況的語言數據庫,這是一個雙向互赢的過程。

而随着科技的進步,語言的“叠代”速度也在加快,如何處理大量的語料?钛媒體了解到,Grathwohl 團隊目前主要從新聞報紙資料當中獲取,也會參照 Twitter 這類社交網絡,甚至還會關注到類似 Amazon 的電商評論,還有當下電影文本中使用的語言。

被廣泛使用語言因龐雜的數據而煩惱,但對于還在存活的小語種世界中的人們而言,這又是另外一個世界。當下隻有15種左右的語言在數字化的世界中擁有大量數據和使用者。據不完全統計,全球擁有超過300種語言,還有超過100種語言存活,并且在線下被大量使用着,這些語言正缺失于高度發展的數字化世界裡。

比如祖魯語,它是南非的一種語言,目前可能會有一億人在使用,孟加拉語有超過七千萬人在使用,但是它沒有任何一個電子或者是智能化的語料庫和語言數據。

因為語言缺少數據化的過程,這些語言的使用者們,不僅不能用母語上網、使用智能手機,甚至是發簡訊。在虛拟世界中,他們隻能用第二語言溝通和學習。牛津大學出版社目前正着手把這些語言的語料庫或者是智能語言數據建立起來。

“這是豐富的語言世界的遺憾。我們非常希望豐富多語言的環境能夠被保存下來,世界上的人都能夠享有豐富的語言環境。”Grathwohl 對钛媒體表示。

目前,牛津大學出版社正積極推動小語種的智能語言數據。牛津做的就是利用自身科研的優勢,将這些小語種智能化,把數據給到大型的科技公司。這樣一來,科技公司就可以利用小語種進行個性化和本地化的開放,利用技術讓這些小語種擁有自己語言的虛拟應用環境。(本文首發钛媒體,作者/李程程)

更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體App

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved