tft每日頭條

 > 生活

 > 科學家對火星的推測

科學家對火星的推測

生活 更新时间:2024-09-16 07:18:55

天問一号降落火星,中華民族關于浩瀚蒼穹的探索又遠了一程。在這值得舉國歡慶的時刻,過往關于火星文的種種科幻想象又更近了一步。

科學家對火星的推測(該考慮如何用算法将火星文轉化為中文了)1

那麼,假如火星文真的存在,在現有的技術條件下,我們該怎麼解讀呢?

字典大法:查表

若是對方對中華文明已早有研究,那麼一本現成的字典是最好的工具。

比如地球語言中,中文英文的互譯,很大程度上便是依賴字典。譬如“Mars”:

科學家對火星的推測(該考慮如何用算法将火星文轉化為中文了)2

通過字典,即使沒見過這個詞,其中含義也可以一覽無餘。

這種策略在電信編碼方面用得更加普遍。比如UTF8編碼。UTF8編碼可以理解為計算機所說的中英文,它将漢字轉換為特定的二進制,然後通過查表進行還原。在諜戰中大顯身手的摩斯碼則是聲音表達的中文,每個長音和短音及其組合,都有對應的意思。

科學家對火星的推測(該考慮如何用算法将火星文轉化為中文了)3

這方面近來最廣為人知的創作,恐怕還是《長安十二時辰》中的望樓。這部優秀的作品創造了一組燈光傳訊密碼,實現了用光來講述的中文。

科學家對火星的推測(該考慮如何用算法将火星文轉化為中文了)4

這種方法也是計算機領域最容易實現的方法。從詞典,便攜電子辭典,到各類劃詞翻譯設備,基于字典的方法已為文化溝通交流提供了許多便利。

猜詞:結合上下文進行推斷

如果這個詞彙字典裡沒有,又該怎麼辦呢?

即使是閱讀中文,也經常會遇到新的詞彙,詞典可能尚未收錄。火星文與流行語便是例子。

先說火星文。在真正登上火星以前,我們把看不懂的文字稱為火星文。其實它也是網絡流行文化的一種。火星文長得奇特,直接查字典未必能夠得到解答,比如:

砹吖,伱ぬ(哎呀,你好)

火星文中的幾個字都不是正确的字,甚至混有其他符号,但是通過形近和同音的聯想,我們還是能夠猜出這句話本來的意思。

對程序而言,它可以内置一個字典,然後搜索出與現有的文字形近又音近的詞彙,完成這項工作。比起直接查字典,難度隻能說是略有提升。

科學家對火星的推測(該考慮如何用算法将火星文轉化為中文了)5

結合語境猜測則是更高級的任務。比如外來詞,酷,它是英文cool的翻譯。

酷的原意是殘忍,程度深;但是在新時代的語境下,它使用的句子發生了變化。如果能收集到大量的文本對比,程序就會發現,原本“這件事讓人很想試試“,”讓人覺得很好“,之類的表述,變成了”這件事很酷“。通過附近的詞彙,程序可以大概推斷出這個詞的意思,這便是一類基于概率的翻譯思路。

完全破譯:多維空間上的抽象計算

如果完全沒有信息,是一個全新的文字,收集到的資料又少,那才是真正的考驗。

現有的文字系統有表音和表意兩類;拿到一份古文字,首先要确定它是表音還是表意;這點可以通過觀察符号的數量,做大緻的推測。一般表音的符号數要低于表意的。

然後通過符号組合出現在一起的概率,可以大緻劃分出幾個詞彙;這一步與之前基于概率的思路類似。

富有知識的古文字專家,在這一步後就會根據重點詞彙的形式,結合自己所知的語言,對文字的組成進行猜測,比如哪些符号代表哪些音節,再依次破譯。

這一步以算法的語言來說,便是尋找【詞彙間對應的連結關系】。假設有n個符号,那麼它組成一個長度為a的句子,便有a^n種可能。通過現有的語料,我們能統計出經常出現的那些可能;同樣,對另一種語言,我們也能做類似的統計;如果兩種語言有着類似的關系,比如都是表音或者都是表意,他們之間能對應的詞彙 應該也有一個類似的【統計關系】。通過對這種關系的描述,我們便能得到一對一的翻譯。

科學家對火星的推測(該考慮如何用算法将火星文轉化為中文了)6

利用這種方法,計算機學家已經在Linear-B數據集上進行了嘗試,準确率達到了67.3%。


如果有真正的火星文,想必按照現有的科學技術,理解他們也并非不可能;關鍵在于探索未知的意願與開放的心态。接納未知,探索未知,在航空器走向深邃的同時,我們的認知也才能同樣走向深刻。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved