最近小艾無聊刷小破站的時候,
刷到一個很有意思的視頻。
視頻提到,
你應該感到驕傲,
因為你已經掌握了人類最高級的語言:中文。
這一論點,
是可以通過數學證明的。
而信息熵,
就是佐證這一論證的工具。
從信息論的角度來看,
中文的高級體現在信息熵高,
也就是說,
中文傳遞信息的效率高。
即能用最簡潔的語言實現信息的傳遞,
在同樣的文字長度下,
傳達的信息量也更豐富。
那麼,信息熵到底是什麼?
它是如何來印證這一說法的呢。
小艾搜集了一部分相關資料,
大家一起來了解一下吧。
Entropy / 信息熵
所謂信息熵,其實是數學上一個很抽象的概念,我們不妨把它理解成某種特定信息的出現概率。
在日常生活中,人們很難精确表述文字中信息量的多少。直到1948年,香農提出了“信息熵”的概念,才解決了對信息的量化度量問題。
香農借鑒了熱力學的概念,把信息中排除了冗餘後的平均信息量稱為“信息熵”,并給出了計算信息熵的數學表達式。即
其中,x表示随機變量,指代任何随機發生的事情,與之相對應的是所有可能輸出的集合,定義為符号集,随機變量的輸出用χ表示。P(x)表示對應的概率。變量的不确定性越大,熵也就越大,得到确定答案需要問的問題越多,也就是所謂的信息量越大。
舉個例子,你做一道判斷題,但是不知道答案,隻能靠猜,這時候就有了信息熵。當我們把這道判斷題改為選擇題的時候,“√”與“×”的二選一過程就會變成在“a、b、c、d”四項選擇中判斷正确答案,不确定性增大,此時這道題的信息熵也相應變大了。
Language / 計算語言信息熵的意義
從信息傳播的角度來看,信息熵可以表示信息的價值。以此為标杆,我們就有了一個衡量信息價值高低的标準,也有利于做出關于知識流通問題的更多推論。
語言文字,是人類最重要的交際工具和信息載體,是人類文化的重要組成部分。從科學研究角度來看,語言的信息熵研究有着非常現實的意義。
信息熵的根本作用之一是,去除訊息中的冗餘,使得其體積變小,并且保證傳輸到接收者一方後,沒有損失或近似沒有損失。如果能準确地計算出語言的信息熵,就可以得到此種語言的信息壓縮下界。
Chinese / 最接近信息熵界限的語言
對于語言信息熵的計算,其實方式很簡單,隻需要帶入公式就可以了。但關鍵問題在于,人們無法準确地知道一個語言中特定文字的出現概率,甚至有時難以統計某種語言中究竟有多少種字符。因此,信息論科學家隻能通過各種手段來估計各個語言的信息熵。
在計量過程中,他們發現中文不論是文字部首還是音節,信息熵都遠遠超過了英語。
在我國文字研究所1989年出版的《現代漢語定量分析》中,漢字的熵被估算為9.6比特,而其他聯合國工作語言的熵分别是法語3.98比特,西班牙語4.01比特,英語4.03比特,俄語4.35比特。
2002年,哈佛大學的Frederi等人通過三次不同算法和文本的對比試驗,壓縮不同版本的聖經,同樣得出了中文是壓縮效率最低的語言,或者說是最接近信息熵界限的語言這一結論。而完美的語言,是應當達到信息壓縮下界的。
采用PPM算法,中文壓縮效率明顯低于其他文字
采用BZIP2壓縮算法,同樣得出了中文壓縮效率低的結論
采用不同文本對譯文進行語言擴展,中文依然是壓縮效率最低的語言
雖然這幾個實驗不甚完美,也有部分漏洞,但卻無一例外得出了相似的結果。因此即便存在缺陷,這樣的實驗依然有着很強的指導意義。
當然,這裡的熵隻是一個參考值,因為信息熵很難得到一個準确的值。如果采用更大的文獻庫,如用文言文,會比現代漢語更加簡潔,得出的數值自然也會産生變動。加上語言的信息熵研究已經發展多年,會涉及更多不同維度,這一數值更加難以精準确定。
Reason / 為何漢語信息熵如此之高
漢字之所以信息熵高,信息量大,是因為漢語有很多特點,可以減少額外文字的出現和使用。
例如,漢語語法簡單,語法時态的使用,會消耗額外的文字,增加冗餘;漢語中多音字的存在,使得同樣的字詞可以有多個意思,如何消除不确定性,則需要通過聯系上下文。此外,中國由字組詞的擴展方式,讓很多文字可以重複使用,以此來減少新文字的出現。
更值得一提的是,在漢字發展的曆史長河中,每個字詞背後都有相應的來源典故,它們是曆史的積澱,蘊含着豐富的文化内涵,這是英語等文字所無法實現和比拟的。
同樣的長度,漢語可以傳達出更多有用的信息。那麼,說漢字因為信息熵高,所以信息量大,也是沒有什麼問題的。
或者我們也可以這樣理解,漢字因為信息熵高,所以接收者在看到單個漢字時,不能确定它要表達的意思,對它的不确定性高,那麼,還能說的可能性很多,(未來可以接收的)信息量大。
想想看,美國人學習了2萬單詞,他能享受的信息還是有限的。中國人學習三四千漢字,就可以享受幾乎全部信息。學少而知多,這大概就是漢語“最高級”強有力的證明吧。
不僅如此,漢語和西方語言對比,還有一個很有意思的特點。那就是西方語言是“一維的”和“密碼式的”語言,這導緻他們的思維直線式,語言抽象而費解,更傾向于關注中心物體而忽略背景,看問題深刻卻片面。而漢語是“二維的”和“形象的”語言,每個漢字都是一幅畫,不僅容易理解,獲得信息的速度也更快。二維思維還使得中國人看問題重場景,看事物全面、透徹且會變通,能夠将複雜問題簡單化。
有資料表明:說漢語比說英語能更多地使用右腦(天才腦)。這又是一個先天因素,說明中國人比西方人有着更多的優勢。至于能否充分利用這種優勢,實現超越,那就需要後天的努力和培養了。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!