tft每日頭條

 > 科技

 > 數據信息知識三者之間的差異

數據信息知識三者之間的差異

科技 更新时间:2024-11-25 07:38:30

導讀:我們把關于信息處理的理論稱為信息論,它是20世紀40年代從通信實踐中發展并總結出來的一門學科,專門研究有關信息處理和可靠傳輸的一般規律。這一理論對計算機技術的發展具有重要意義。為了更好地闡述這一理論,讓我們先來讨論幾個大家耳熟能詳的詞:數據、信息、知識。

作者:徐晟

來源:華章科技

數據信息知識三者之間的差異(終于有人把數據)1

01 數據是一組有意義的符号

數據無處不在,隻是它們沒有實體。

過去,人們習慣把數字的組合稱為數據。但在今天,這樣的理解顯然不夠全面。那麼是否可以把數字、字符、字母的集合稱為數據?也不準确。

在今天“大數據”的語境中,數據是可以被記錄和識别的一組有意義的符号,一般可通過原始的觀察或度量得到。數據是對客觀事物的邏輯歸納,可以用來表示一個事實、一種狀态、一個實體的特征,或一個觀察的結果,有些是用于描述某個對象的事實性數據,有些則是通過觀察、分析、歸納得到的總結性數據。

數據可以是連續的,比如無線電通信時在空氣中傳輸的電磁波,它們是模拟數據;數據也可以是離散的,比如在計算機中存儲的文檔和照片,它們是數字數據

承載數據的形式有很多,不僅包括文字、數字、符号、圖像、語音、視頻,也可以是對某個事物的屬性、數量、位置、關系的抽象表示。大氣的溫濕度、汽車的行駛路線、學生的檔案記錄、商務的合同,這些都是數據。

我們平時用電子設備看新聞、拍照片、買東西、打遊戲,本質上都是在和數據打交道。在計算機中,它們是一連串包含有0和1的二進制數的組合。

數據信息知識三者之間的差異(終于有人把數據)2

02 信息是用來消除不确定性的

現在我們來明确一下什麼是數據,什麼是信息。當人們在研究甲骨文時,上面記錄的符号僅僅是一些數據。要讀懂這些數據,就必須了解數據背後要表達的含義。一旦對數據做出解釋,我們就能得到甲骨文上的信息。

數據與信息既有聯系,又有區别。數據是信息的載體,信息則需要依托數據來表達。它們是形與質的關系,兩者密不可分。

信息由數據加工得來,它可以由數字和文字表達,也可以表現為其他具有意義的符号,其承載形式不重要,重要的是信息能讓我們了解一些事情、鑒别一些真僞、佐證一些觀點。也就是說,盡管數據存在的形式多種多樣,但我們真正想要獲得的是信息。

“信息”作為科學術語最早出現在哈特萊1928年撰寫的論文《信息傳輸》中,在該論文中他首次提出了将信息定量化處理的設想。1948年,信息論創始人、美國數學家香農發表了一篇有着深遠影響的論文—《關于通信的數學原理》,他明确指出了“信息是用來消除随機不确定性的東西”

在香農看來,一旦我們想要對信息進行量化和比較,我們就不要去關注這些信息到底承載了什麼内容,而是要看這條信息出現後,是否改變了某些不确定性事件的概率。今天這一定義已經被看作是對“信息”的經典定義,在各種場合不斷被人引用。

無論是數字、字符或它們的組合,如果我們無法解讀,就不能稱其為信息。有一個重要的判斷标準是,看它是否承載了有用的内容。無論是石頭上刻的畫、紙上寫的字、牆上的塗鴉還是電腦中的文件,隻要它們能表達确切的含義,就能認為是信息。

一串11位數字的号碼,如果它是随機數字,則談不上是信息。如果我告訴你,這串數字是我的手機号,它就消除了不确定性,它便是一種信息。信息是把人們不清楚的給說清楚的那些内容,如果已經知道了,就不能算作新的信息。

舉例來說,今天任何一個小學生都知道地球是圓的,地球自轉産生了白天和黑夜。這在今天看來是一個基本常識,但我們的祖先并不知道。如果我們把發明文字作為人類文明的起點,那麼大約經過5000多年,也就是直到15世紀,人們才開始接受地球是一個大圓球的觀點。

雖然“地球”對于今天的小學生來說不算是新的信息,但是對于古人來說,它不僅是信息,而且信息量巨大。

你或許已經發現了,信息會因場景而定,因每個人的主觀認識而定。同一條信息,對一些人是有用的,對另一些人或許就沒用了。

數據信息知識三者之間的差異(終于有人把數據)3

03 知識是對信息的總結和提煉

随意給出3個數字:68、21、192。這3個數字僅僅是數據。現在給它們加上一些說明,比如:衣服的價格是68元,今天的氣溫是21攝氏度,小明爸爸的體重是192斤。這些數據有了明确表達的含義,它們就是信息。

不僅如此,我們還能基于這些信息給出一些判斷:衣服不是很貴,天氣有點涼爽,男人該去減肥了。做出這些判斷,需要依賴我們平時生活中積累的經驗和常識,即知識。

知識是對信息的提煉和概括,它是高度概括的信息。如果說信息可以解答一些簡單的問題,比如“誰”“在哪裡”“做什麼”,那麼知識可以回答一些更具深刻認知的問題,比如“怎樣”“為何”。

日常生活中最基本的知識是常識。比如明火不能碰、熱油不能遇水、人有生老病死、月有陰晴圓缺,它們大部分來自生活,是大家認為都該懂得、不言自明的知識。今天很多約定俗成的常識,是由我們的祖輩口口相傳、代代相承而來。人并不是天生就有常識,知道火為何物、火可傷人、火可熟食。很多道理都是從生活實踐中總結而來的。

現如今,對于人工智能來說,要解決的核心問題是讓計算機具有常識。很多常識背後有着複雜的知識體系,機器必須真正“理解”知識,而不是“記憶”它們。

舉例來說,計算機或許能通過數據樣本學習,知道人類有頭、手、腳等身體部位,但它很難理解既然這些部位都長在人體上,為何隻有頭上有眼睛,手和腳上卻沒有?又比如,計算機學會并知道了“人有2隻眼睛”,但它無法判斷這個世界上是否存在“有1隻眼睛的人”和“有3隻眼睛的人”。

如今的人工智能隻能從數據中學習到數據之間的聯系,它還不能很好地處理有關常識的問題,這方面人們還有很長的研究之路要走。

以上讨論的“知識”,指的都是人腦中的知識。它和計算機要處理的“知識”是不同的。從本質上講,計算機隻是模仿人類的知識,它們并沒有真正掌握這些“知識”。計算機隻是通過一些特定方法把人類知識表達出來。而這個特定方法是基于圖技術

圖是一種表示知識的工具,是描述知識的狀态、關系、路徑距離等相關要素的最自然的數學表達。它擅長存儲和處理複雜的網狀關系,所以在知識圖譜、社交網絡、用戶關系分析等領域有着廣泛的應用。

近年來,基于圖技術的知識圖譜是十分熱門的研究領域。比如大衆熟知的維基百科就是一個知識圖譜應用。知識圖譜可以用來描述各種實體以及它們之間的關系。它是一個龐大的圖形網絡知識庫。在這個網絡中,每個節點是一個實體,比如人名、地名、事件、活動,任意兩個節點之間的邊表示它們之間存在關系,如圖3-1所示。

數據信息知識三者之間的差異(終于有人把數據)4

▲圖3-1 基于圖形結構的知識圖譜示意圖

知識圖譜的基本組成是“實體–關系–實體”的三元組,它不僅能把與關鍵詞有關的知識系統化地展示給用戶,也可以基于知識進行推演。比方說,從〈東方明珠,坐落在,浦東〉和〈浦東,屬于,上海〉這兩個組合,就能推測得到〈東方明珠,位于,上海〉。

知識圖譜還會不斷更新叠代,用戶搜索的次數越多,範圍越廣,這個知識庫就能獲取越多的信息和内容。

知識并不是與生俱來的,獲取知識通常有兩種途徑。

途徑一是親身體驗。比如,剛出生的嬰兒什麼都不懂,将一杯熱水放到他面前,他會想要去拿杯子,結果喝水被燙到了。第二次他再看到杯子,有了上次被燙的經驗,他會觀察杯口是否冒煙,摸摸杯子的溫度,再決定是否拿杯子喝水。在這個過程中,嬰兒通過自己的親身體驗,逐漸掌握了有關“熱水”的知識。

南宋理學家、思想家朱熹曾說:“所謂緻知在格物者,言欲緻吾之知,在即物而窮其理也。”他要表達的意思是,獲得知識的途徑在于認識世間萬物,并徹底研究它們的原理。就是說,要親身體驗這個世界來獲得寶貴的知識。每個人有不同的人生和經曆,這些會成為我們獨有的知識。

親身體驗得來的知識是最真實的,所以它通常比較準确。不過,這樣獲取知識的時間周期長,效率也比較低。

途徑二是通過别人教授。比如通過父母、老師、書本、網絡學習得來,但老師教的、書上印的可能出錯,這樣得來的知識未必準确。不過,它仍然是獲取知識最主要的形式,畢竟我們沒有那麼多時間和精力,凡事都親身經曆一遍。站在前人和巨人的肩膀上,不斷學習新的知識,是人類科技進步的根本原因。

有趣的是,在互聯網時代,任何人都能随時随地找到自己想要的信息,但我們的知識總量并不會立刻增加。學習是一種過程,需要時間積累,欲速則不達。

比如很多人都聽過“區塊鍊”,但大部分人并不清楚它是什麼。有人認為它是錢,也有人認為它是一種身份認證技術。但這些理解都不準确。很多人隻是從網上找到了關于區塊鍊的信息,并沒有真正得到關于它的知識。從某種意義上講,互聯網雖然提高了人們找到碎片信息的效率,但降低了人們掌握完整知識的能力。

當然,互聯網對整個社會來說仍然利大于弊,它讓全世界的知識能夠快速傳遞和共享。每個人都可以在網絡上自由地發表觀點,這些内容也被其他人搜索、閱讀、讨論。一個小學生能從互聯網上學到知識,并在課堂上指出老師的錯誤,在家裡糾正父母的觀念。這讓過去作為權威的老師和父母受到了挑戰,這在以前是不可想象的。

數據信息知識三者之間的差異(終于有人把數據)5

最後,讓我們做個簡答的總結——數據、信息、知識三者密不可分。

  • 數據是一組有意義的符号,它是信息的載體,是知識的來源;
  • 信息賦予了數據含義,信息消除了不确定性;
  • 知識從實踐、經驗中得到,它由數據記錄,從信息中提煉。

關于作者:徐晟,某商業銀行IT技術主管,畢業于上海交通大學,從事IT技術領域工作十餘年,對科技發展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數據可視化、容量管理等方面工作。

本文摘編自《大話機器智能:一書看透AI的底層運行邏輯》,經出版方授權發布。(ISBN:9787111696193)

數據信息知識三者之間的差異(終于有人把數據)6

《大話機器智能:一書看透AI的底層運行邏輯》

推薦語:AI是什麼?機器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現AI的底層運行邏輯,即AI是如何工作的。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved