tft每日頭條

 > 生活

 > 精确性與信息熵的關系

精确性與信息熵的關系

生活 更新时间:2024-10-05 14:09:59
開門見山

本篇小白改變下行文結構,先在開頭引出話題,然後開門見山,通過一組不同角度的描述來勾勒出對話題的理解和認知。然後在進一步描述小白的思考以及如何得出這些理解和認知。

抛出問題

先來引出話題。浏覽過小白前幾篇關于随機世界的文章後,我們知道這個世界本質是随機的。有些随機空間我們有共同的認知,比如時空,我們都認為一秒一秒,一毫一毫的向未來和遠處均勻延伸。有些空間我們還認知的不夠透徹。比如,有外星智慧嗎?房價還會漲嗎?未來世界會被機器人統治嗎?當下哪些人群的信用好,給他們貸款的額度的上限時多少?等等。人們不但試圖認知這些随機世界得到信息,還在互相的傳遞着這些信息。那麼有些問題擺在眼前,問題一,是否任何随機世界都可以被認知清楚,簡單的采樣後,計算期望,方差就可以嗎。問題二,人們如何衡量自己認知的程度。問題三,通信原理中的香農定理如何理解。

精确性與信息熵的關系(信息的度量熵)1

通過前幾篇文章,我們了解到,認知世界就是認知世界背後随機空間的規律,這一過程也叫做獲取信息。具體是通過采樣,得到樣本數據,通過統計數據來得到概率分布,也就是得到了信息。然而,小白多次提到"樣本或事物背後疊加的多個随機空間"。這個疊加的方式有什麼不同嗎?疊加在一起的随機空間,我們通過采樣和統計概率就可以正确的獲取信息碼?小白先來列舉如下幾種疊加情況:情況一,時空背後的随機空間和機器饅頭生産的随機空間的疊加。情況二,機器生産饅頭和饅頭腐爛背後的随機空間疊加。情況三,小白投篩子和老王生男孩還是女孩背後的随機空間疊加。情況四,小白網上購買某商品的次數和商家廣告頻率的背後的随機空間疊加。

小白思考如上四種情況可以分為如下三種方式:

疊加方式一:情況一和情況四疊加的方式是相同的,疊加的方式是随機空間"元"(或者稱維度)的增加。首先,機器生産多少饅頭是"一元"随機空間(饅頭數量),疊加上時間後,變成了時間和饅頭的二元随機空間(天,饅頭數量)。疊加上上空間後,變成了時間,地域,饅頭數量的三元随機空間(天,機器位置,饅頭數量)。而情況四,購買次數是一元随機空間,疊加上廣告次數後變成了(廣告次數,購買次數)的二元随機空間。小白細想,這裡的"廣告次數"類同于"時間"。試想,一個月内廣告次數可能是不穩定的,比如這個月1次,下個月2次,那麼我們如果把時間拉到一年,可能,今年和去年廣告的次數就相同了,也就是說,我們觀察一個月,廣告次數不穩定,如果觀察一年,廣告次數基本穩定。這類似于時間,如果我們光測小于普朗克時間的時間可能不穩定,但如果我們拉長到一秒鐘,時間就穩定了。

疊加方式二:對于情況三,我們也把他們認為是二元随機空間(篩子點數,老王小孩的性别)。這個感覺完全沒有意義,沒有任何信息的體現。

疊加方式三:對于情況二,機器生産饅頭和饅頭腐爛随機空間疊加,随機空間維度沒有增加,而是随機空間本身的分布引入了新的能量,随機空間分布發生了變化。

針對上述三種疊加的方式,小白理解,疊加方式二是沒有意義的,即對認識規律沒有意義。

疊加方式三,大家應該容易理解,這種疊加方式分析處理的方法就是前幾篇文章反複讨論的"卷積"

而疊加方式一,了解概率論的朋友,應該很容易聯想想到,我們通過聯合概率,條件概率的方法來對樣本數據進行分析和處理。小白已經準備下一篇文章描述當前火熱的"大數據"領域的"随機森林算法",其體現的就是對疊加方式一的處理。

第十一篇 信息的熵和度量

信息理論中關于熵的描述是"熵在信息論中代表随機變量不确定度的度量"。對此如何理解呢?我們還從"機器生産饅頭"的随機空間說起。假如我們門把采樣間隔為一個小時,就是觀察每個小時饅頭的生産數量,是不穩定的。因為生産饅頭有很多工序,和面,機器加工,蒸,等等。整個流程的時間超過一個小時。因此,我們觀察的結果是,有的樣本是0,有的樣本是很多個,比如1000個饅頭。但如果,我們把采樣間隔拉長到一周,那麼,每周産出的饅頭數量應該就很接近。因此,我們是否可以用"一周"來度量饅頭生産的随機空間的不确定性。并且我們沿用熱力學的做法,稱它作"熵"。深入分析下這個"熵",我們不難理解,這個熵和概率有關系,假如概率1,那麼這個信息就是及其穩定的,其熵為0,假如概率小,就是不一定出現,就說明不穩定。概率就是在時域或空域的積分,也就是區間越大,概率越大,越穩定。因此,熵的本質就是概率,隻不過是從度量的角度來描述不穩定性。

小白又想到一個問題,熵可以用來幹什麼?我們通常說度量,其實包含了兩個前提,一是度量的角度(維度),二是度量的單位。

"角度"本質是聯系,是關聯。比如從GDP的角度看中國經濟,其實本質是看中國經濟對GDP的影響,看中國經濟在GDP上的積分,其本質是從GDP的維度去度量中國經濟;再比如,從吵架次數的角度去看夫妻關系,其本質是看夫妻關系對吵架頻次的影響,是夫妻關系在吵架維度上的積分,是從吵架的維度去度量夫妻關系。

對于"單位",我們通常用确定的事情,去度量不确定的事情。比如,中國經濟好壞不好衡量,發展質量,發展效率等等,需要考慮的因素很多,且不好衡量,不容易量化。而GDP很明确,我支付3元買瓶礦泉水就創造了3元的GDP。因此,我們通過用"明确的"去度量"不明确的",即用熵小的去度量熵大的。"熵小"意味着單位小,度量的"精度"高,越能有效的刻畫被度量事物的信息。比如,時空的熵"很小",普朗克單位(因為在普朗克單位以上時空是确定的,而小于普朗克單位,時空是不确定的,物理學家們在普朗克單位以内捕捉例子的位置,速度很吃力)。而機器生産饅頭的熵比時空大。比如剛才我們提到用"一周"去采樣機器生産饅頭的數量才是穩定的。因此,用時空去度量饅頭的生産是綽綽有餘的,針對這一點,小白再描述幾句話,"饅頭在一周内生産饅頭的數量,其本質是樣本數據,其本質也是概率密度,其本質也是速度,采樣的周期本質就是樣本數據的熵"。閱讀完小白近期關于随機世界的幾篇文章後,應該很容理解這幾句話。小白再說一句話,"熵意味着數據所占用的頻帶越寬,即頻譜越寬",這句話先不解釋,算是作為下一個小節(香農定理)的引子。

我們在繼續談"熵",有一句老生常談的話"要從多個角度去看問題,要換位思考"。這句話大家耳熟能詳。其本質是,"問題"既是我們分析的對象,這個問題背後是一個随機空間,這個随機空間是一個多元("多維" )的随機空間。我們要獲取這個空間的信息,就需要從多個維度去度量。在某一個維度度量的結果,本質就是這個多元的随機空間在某一個維度上的熵。我們再來分析中國經濟的例子,經濟好快可以從GDP,人均GDP,M2,貿易順差,污染程度,基建規模,人口年齡分布,失業率等很多因素衡量。但我們通常關注GDP,那是因為,GDP的熵很小,對GDP中國經濟的描述很精确,而且中國經濟再GDP維度上"熵"變化很敏感。但,我們要清楚,GDP不能完全刻畫中國經濟的情況,我們需要多元的維度去度量中國經濟。還有在不同的時期,随着經濟的發展,不同緯度的熵大小的熵的相對關系會變化。 好了,我們其實可以有以下結論,第一,我們通常用熵小的度量熵大,意思是意思是以小熵為單位去度量大的熵;第二,小熵意味着元,意味着維度。從哪個維度去度量,度量的值越大,意味這哪個維度對被度量事物的關聯越大,即影響越大。我們就稱作"條件熵"吧,這和概率論的概念"條件概率"是一緻的。

小白再來概括和引申一下"熵"含義,一個對象的熵其實準确說應該叫條件熵,這個條件就是維度(或者叫角度,叫分類,叫元)。隻是,我們通常習慣于在這個條件的熵是0的情況來描述對象的熵,因為,這個條件的熵為0,意味着條件是完全确定的。那麼,條件熵,就等于熵。例如,如果明天下雨,小白帶傘的概率是2/3。假如明天下雨的概率是1/2,那麼小白帶傘的概率就是1/6。這個概率1/6不等于條件概率2/3。而假如明天一定下雨,即條件的概率是1,熵是0。那麼,小白帶傘的概率和條件概率都是2/3。好了,試想我們整個人類曆史文明,其本質就是獲取信息的過程,把不确定型的對象變成确定型對象的過程,是熵由小變大的過程,這個熵指的是我們人類文明之熵,這個熵體現在我們的文字的積累,文化的積累,科技的進步。即文字,文化,科技以不同的維度度量着人類的文明。另外,還有一個維度就是時空的維度,我們人類的曆史就是人類文明在時空維度的熵。總之,人類文明發展是認知世界的程度的加深,本質是不斷的度量。用時空度量文字,用文字度量曆史,用曆史度量時代,用時代度量文明。

第十二篇 香農定理

接着上一小節引申,用時空度量文字,文字本質是什麼,文字是語言也是符号。其本質是由時空度量而成。比如,語言符号的形狀所展現的空間結構,語言符号的排列順序所展現的時間延展。文字是人類通過時空形成一個新的維度,用這個維度人類去度量世界,比如,每一篇科技論文,就是人類在文字的維度對世界運行規律的一次采樣,一篇篇的科技文章是世界物理規律在文字維度的積分,并形成了對背後物理規律的描寫。而這一篇篇論文的總和就是這個客觀世界的信息在文字的維度上的熵。随着時間的發展,論文不斷增多,熵不斷增大,最後接近世界運行規律真正的熵。

香農是美國貝爾實驗室的科學家,香農的對信息和通信的貢獻是開山級的。香農創造了用"比特"的維度來度量信息量,并基于此提出了三大香農定理。

我們先談下"比特"這個度量信息的熵的信的維度。沒錯,這個比特就是0和1二進制的比特。但這個比特在香農貢獻下,具有了非凡的意義。我們都知道一本電子書,一個電子圖片,在電子設備上存在的形式就是由0和這些比特堆積而成。因此,這些堆積的比特其本質還是那些文字,那些形狀。人們對這些字符,文字與0,1的字符串進行了映射。因此可以在電子設備中保存和傳輸。但有一個問題,比如,ASC碼,所有的字符轉換到0和1的比特串後的長度都是一樣的。但是,在我們傳送的信息中,并不是所有的字符出現的概率相同,因此,是否可以用盡量少的比特傳來編碼常會出現的字符,而可以用稍多的比特串來表示不常出現的字符。這樣,比特的長度就代表着帶概率,即确定性,即熵。比特串長度越小,熵越小。這個就是香農第一定理所描述的含義。

再來看香農第二定理,公式是(C = B*Log2(1 S/N)),其中,C為信道帶寬,S/N為信噪比,B是頻譜寬度。怎麼理解這個公式?這一定理意指出當信息流動時,信道帶寬如何進行評估。比特串越寬,信息量越大,熵越大,描述的背後的信息量越大,變化越豐富,由于頻率意味着變化,因此,意味着占用更多頻帶寬度(請回顧小白隊傅利葉變化的理解)。由于疊加了噪聲,一定長度比特串的信号,實際的熵更大(疊加噪聲導緻)。因此,我們必須通過信号的重新編碼,比如,原來用4個比特能覆蓋的熵,現在要用6個比特來傳送,這相當于,降低有效比特的傳送速率,降低了信道的容量。假如在這種情況下,我們仍用4個比特表示,那麼,對端,能正确解析的概率隻有2/3。因此,香農第二定理的含義是,在有噪聲的情況下,需要增加了固定長度的比特串所描述信息的複雜度。因此,我們要重新進行編碼,形成更長的比特長度才能讓對端以最小的出錯概率翻譯出信息。

再來看香農第三定理的描述,"隻要碼長足夠長,總可以找到一種信元編碼,使編碼後信息傳輸率略大于失真函數,而碼的平均失真度不大于給定的失真度"。小白理解,香農的第三定理和第二定理是異曲同工之妙。意思是,在信息編碼時,可以盡可能的采取一種編碼,這種編碼的平均碼長(即信息熵)是小于原有信号的信息熵的,因此造成了對信元的損傷,導緻信号失真。但這種失真是滿足保真度準則的。因此,能夠滿足我們對信息的要求,同時減少了信息量,提高了傳送的效率。因此,第三定理,本質是在信息的保真度和信号的儲存傳送效率之間的一個平衡。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved