【導讀】馬伯庸《長安十二時辰》裡的“大案牍術”應是來自于現在的大數據。收集海量信息通過分析整理快速找出相關的結果。如果擁有此思想的人回到古代,是否有可能實現文中“大案牍術”?
先說結論——不可行,但是親王的腦洞足夠大。
其實這種腦洞在許多架空曆史的小說中也都出現過。除了《長安十二時辰》之外,包括《三體》中描述的“三千萬士兵組成人列計算機”,比如《宰執天下》中宋朝就有了馬拉火車與蒸汽機,都是作者們腦洞大開的體現。作為網絡文學,這種内容更多是一種“爽文”心态,讀者看着開心就好了,不需要計較真假。
為什麼“大案牍術”不可行?下面我就從存儲技術角度分析一下——
提到“大案牍術”,許多人都将其定義為當下的“大數據”,并以大數據之普及臆測出“大案牍術”的可行性。不過大家顯然都忘記了高中政治課上學過的内容:
任何社會均由生産力與生産關系、經濟基礎與上層建築構成基本框架。生産力決定生産關系,經濟基礎決定上層建築,而生産關系和上層建築又具有反作用。
最簡單的道理,我們現在之所以能夠利用大數據,是因為我們處在數字化的時代,我們有電腦、手機、服務器等一系列電子計算設備,這些設備提供的計算力或者說生産力能夠輕松駕馭大數據的應用需求。雖然我們承認人腦相對于電腦來說目前還是要更先進,但是顯然在1000多年前的生産力狀态下,想僅僅依靠人腦來實現大數據應用并不現實。
網絡上對于大數據的定義很長,當然也不是很準确,但是定義中卻補充了大數據應用的5V标準,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。而“大案牍術”最大的問題就是第二項——Velocity(高速)。
這裡的“高速”顯然不是與ETC相關的概念,而是強調數據獲得、存取與處理的速度。今天,我們獲取數據的來源多樣,無論是在現實還是在網絡中,全世界每天産生的數據(包括結構化和非結構化數據)大約在2.5億個字節左右,這些數據來源包括但是不限于互聯網、社交媒體、通訊、照片與視頻、物聯網和服務等等。
今天,你隻要離開屋子,也就進入了攝像頭監控當中。無論你是步行、坐公交還是自駕,路口的攝像頭都會對你的一言一行進行記錄。但即便是這樣,如何處理并保存這些龐大的數據也會成為警察叔叔們頭疼的問題,不然就不會有物聯網、邊緣計算和雲計算的應用出現了。
所以,從數據采集的角度來看,要将幾百萬人口的日常操作事無巨細的記錄下來,這恐怕并不是小小的靖安司所能夠安排得了的,也并不現實。比如我們需要記錄張三每天幾點離開家門、逛了什麼商鋪、買了什麼東西、跟什麼朋友聊天、吃了誰家的酒肉、付了多少酒錢肉錢、幾點鐘回家睡覺,恐怕昨天的記錄還沒有完成,新的一天就又開始了,所謂的“大案牍術”自然也就是一種空想。
說完了記錄,我們再來說說存儲。如今我們的存儲是按照字節Byte來計算的,我們每天産生的海量數據被存儲在世界各地的數據中心當中,通過磁盤、磁帶等方式存儲起來。這些數據有些是需要經常使用的,叫做熱數據(比如本周上映的電影);也有一些可能用過一次就不需要再用的,叫做冷數據(比如去年上映的電影);介乎兩者之間的叫做溫數據(比如兩個月前上映的電影)。
對于熱數據,我們可以将其存儲在SSD固态盤中,甚至我們也可以使用英特爾傲騰産品(比普通SSD快N倍的一種存儲設備);而對于溫數據和冷數據,我們可以就将其放在普通的機械硬盤甚至磁帶中。但是無論如何,我們在電腦端點點鼠标,動動手指,你想看的電影就能立刻播放。
但是這在古代是難以想象的。即便唐代已經有個成熟的造紙工藝,不需要像秦漢那樣使用竹簡,但是将長安城數百萬人的數據都存儲起來是一個非常複雜的過程,而想從這些浩如煙海的數據中調取某個人某一天的數據,即便是有着精密的分類和嚴格操作的工人,其耗時也是巨大的。
除了數據的獲取的“高速”與數據存取的“高速”之外,我們還要看到另一個問題——數據應用與分析的“高速”。
今天我們談大數據,是因為我們有計算性能強大的設備,有精密的數據庫,有高速傳輸的光纖網絡,還有基于這些平台上的算法和應用軟件。但是即便如此,我們的大數據分析也需要結合實際情況,有些内容我們還隻能給出模糊的方向,甚至進行多種可能性的預測而已。
但是在《長安十二時辰》中,完成這一工作的就隻有徐賓一人。當然,徐賓作為大案牍術算法的創始人,已經展示出了對這套算法的駕輕就熟,也獲得了一定程度上的成功,但是這始終阻擋不了他是一個人的事實。
是人就要吃飯睡覺,是人就有七情六欲,是人就會犯錯誤。還記得2017年初阿爾法狗與李世石的精彩對決嗎?大數據的最大價值就在于“熟能生巧”,或許在最初的訓練中,大數據分析的速度會落後于經驗豐富的人類,但是伴随着樣本數量的增加和訓練流程的加快,借助于神經網絡模型,機器人大概率會後來居上。大數據可以越變越強,但是依靠徐賓個人的大案牍術并不會,即便徐賓能夠廣開門庭,收徒開課,但本質上大案牍術還是基于人腦實現的分析,與電腦的速度不可同日而語。
大案牍術,說到底就是唐代數據庫,但是這個數據庫提供的是結構化的數據,徐賓所進行的就是一些數據的檢索和查詢。但即便如此,在數據的采集、數據存取和數據處理與分析上,都是不可能實現的,“高速”的缺陷,決定了大案牍術隻是一種理想化的分析模型,也隻能存在于架空曆史的小說當中。
歸根結底,徐賓的聰明超越了時代,他所提出的大案牍術超越了唐代的生産力水平,而這種超出生産力所想象的生産關系是不可能實現的,但是這絲毫不影響《長安十二時辰》作品的可讀性,畢竟讀者需要的是有趣的“爽文”而不是嚴謹的科學論證。
彩蛋:數據存儲又快又好,我們要靠什麼?
在剛剛的文章中,我們提到了一個名字——英特爾傲騰存儲。傲騰是英特爾基于3DXpoint存儲介質而打造的緩存設備 ,也是當下世界超快的存儲設備。它兼容了NVMe(非易失性存儲器)存儲協議,由3DXPoint内存介質、英特爾内存和存儲控制器、英特爾互聯IP和英特爾軟件共同構成。傲騰具備固态盤和内存兩種形态,後者被稱為數據中心可持久内存,相對傳統SSD來說性能提升巨大。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!