大數據信息導論論文-tft每日頭條

大數據信息導論論文

科技更新时间:2026-07-07 08:56:25

日志是什麼

在中文互聯網上，無論是用谷歌搜索還是用百度搜索，講述日志的文章寥寥無幾。畢竟日志這個概念太簡單，簡單到不禁讓大家忽視了它。大道至簡，我想這四個字用在日志這個概念身上是很貼切的。

首先，日志是什麼？這裡的日志指的是隻能增加的，完全按照時間排序的一系列記錄。就像下圖一樣：

大數據信息導論論文（日志--被大數據時代遺忘的奠基石）1

真的是不能再簡單的一個概念了。新的記錄隻能添加日志的最後，讀取日志時可以從最左邊的最舊的一條記錄依次讀到最右邊的最新的一條記錄。

日志的概念很容易和開發人員為了記錄應用程序狀态的日志弄混淆。開發人員為了記錄應用程序狀态的日志，用 Kreps 的話來說，這是一種“應用日志記錄”，而這篇文章提到的日志更像是一種“數據日志”，是記錄數據變化狀态的。

數據庫的奠基石

日志的概念第一個的應用領域是數據庫，當然按照曆史來說，數據庫才是日志概念的發明者，具體是誰發明已不可知了，可能發明者覺得日志這個概念太過簡單而不屑于記錄，畢竟誰也沒想到日志這個概念會脫離于數據庫，而成為數據領域的“基石”。

數據庫裡的日志有 Undo 日志、Redo 日志和 Undo/Redo 日志三種，最常用的日志當然是 Redo 日志。Redo，可以理解為可回放、可重複的意思，在數據庫裡的含義就是隻要知道日志上記錄的對應的數據庫某個初始狀态，便可以通過日志回放出數據庫任意時刻的狀态。想一想，數據庫一旦有了這個特性，那麼意味着隻要日志不丢失、不損壞，無論數據庫出了什麼故障，我們都可以依賴日志恢複。

除了故障恢複外，很快人們就發現日志也可以用來做數據同步。無論是哪一個關系型數據庫，都依賴于日志作為主庫向備份庫的同步數據的樞紐，當然也不僅僅用于主備同步，異構數據庫也可以依賴這個日志，簡單的進行解析轉換從而實現數據同步。

分布式算法的誕生

日志不僅僅在關系型數據庫領域大肆擴張，而且在分布式算法領域也占據了一席之地。也許你會問，日志這個簡單的東西怎麼和高大上的分布式算法扯在了一塊？且聽我慢慢說來。

日志有一個很重要的特性：按順序記錄的狀态變化。依賴于這個特性，我們可以進行不同的異構數據庫之間數據分發。再次強調一遍：日志可以用來記錄狀态變化和用做數據分發。分布式系統的核心問題是什麼？讓系統内的各個節點有着同樣的狀态變化，達成一緻的共識。通俗來講就是，團體内個體都有着同一個理念才會形成團體，要是理念不同，那這個團體也就散夥了。

前面已經提到了，如果兩個系統都按照同一份日志的同一刻的狀态回放，那麼兩個系統最後得到的結果肯定是一樣的。那麼推廣到分布式系統内部的不同節點，也是一樣的道理：隻要所有節點都有着同樣的初始狀态，那麼按照日志回放，那麼所有節點最終就會達到同樣的結束狀态，算不算某種程度上的共識呢？雖然分布式系統裡經常會遇上各種各樣的不确定性的問題，比如網絡崩潰、機器故障，但是日志給與了分布式系統一個确定性的東西：隻要老老實實的按照日志回放狀态，那麼得到的結果一定是确定的。也就是“确定性的過程導緻了确定性的結果”。

這有點像宿命論，但是分布式系統在不确定性的世界找到了确定性的東西，并以此作為錨點，在一大堆不可靠的機器上面構建了一套可靠的系統。或許這就是計算機的美妙。

課外拓展：

上面提到的實際上就是狀态機複制原理：如果兩個相同的、确定性的進程從同一狀态開始，并且以相同的順序獲得相同的輸入，那麼這兩個進程将會生成相同的輸出，并且結束在相同的狀态。

以日志為核心的分布式算法有 Paxos 、Raft 等等。

當然，應用到生産環境不可能像上文提到的那麼簡單，還需要做非常多的努力。
實時計算裡的日志

2018年出了一本新書 Streaming Systems 是關于實時計算的，基本上把實時計算遇到的問題都在理論上解決了，其中幾章是關于流表二象性的。所謂流表二象性，指的是不斷變化的數據流和數據庫裡的靜态的表本質上同一種的東西。隻不過我們從不同的角度去觀察，看到了不同的樣子，從而以為它們兩個是不同的東西。這和物理學裡的波粒二象性，有着異曲同工之妙，光既是波，也是粒子，至于它到底是波還是粒子，取決于你觀察的角度。

Streaming Systems 論證流表二象性的一個核心的論證點就是日志。以數據庫為例，當數據庫裡的表發生變化時，這些變化實際上是可以按順序記錄在日志上的，日志上動态的，像流一樣不斷變化。數據庫可以依賴于日志，回放出任意狀态的表，表是靜态的，記錄了某一刻的狀态。是不是隐約有那麼一種感覺了，所謂表就是不斷複現日志上面狀态的結果集，流則是表的變化記錄。随着日志的不斷回放，流的變化聚合成表，而表的變化過程就是流。

通俗來講，表是靜态的數據，流是動态的數據。至于你認為數據是什麼，取決于你的觀察角度，要是你看到的是某一時刻的數據，那麼它就是表，要是你是持續不斷的觀察，那麼你看到的就是流。

基于這個觀念，演化出了 Streaming SQL ，并直接成為了 Flink 和 Spark Structure Streaming 的理論基礎。

大家要是感興趣的話，可以讀下《Streaming Systems》這本書，寫的非常之好。
結語

當然，日志不僅僅隻是本文提到的這些應用場景，比如像 Kafka 就是受了日志的概念啟發而誕生的，并且日志的概念也可以作為微服務之間保證數據一緻性的樞紐，諸如此類，就不在本文一一細說了。

回到前面提過的問題，為什麼筆者會認為日志這個概念如此重要呢？
日志是數據庫的奠基石，而數據庫在互聯網世界的重要性不用多提了，要是沒有數據庫，你在手機上玩的任何遊戲，閱讀的各類小說甚至你的操作系統都不會存在；
其次，日志這個概念啟發了分布式算法，而分布式系統的核心就在于分布式算法，至于分布式系統本身就是大數據的基礎，大數據喂養了人工智能；
進入5G時代中的物聯網時代，我們會越來越強調實時分析、實時計算，而 Streaming SQL 讓實時計算不再複雜，簡單到一個不懂技術的業務也能分析到實時的數據。Streaming SQL 的背後就是日志這個簡單的概念。
。。。

篇幅和能力所限，最後，讀者要是因為本文而對日志這個概念感興趣的話，再次強烈推薦 Jay Kreps 寫的《The Log: What every software engineer should know about real-time data's unifying abstraction》，本文很多思路也都來源于這篇文章。

感謝 Jay Kreps ！
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技怎樣在視頻中添加背景視頻
1、點擊導入，放入你的背景圖片和視頻。2、然後将圖片放在第一條視頻軌道上，視頻放在第二條畫中畫軌道上... 2023-07-05
科技蘋果手機顯示不支持此配件怎麼辦
1、重新拔插數據線，有時候如過數據線沒插緊或者接觸不良就會導緻這個問題出現。從新拔插數據線即可解決。... 2023-07-05
科技無法通過網絡聯系打印機怎麼修複
演示機型：華為MateBookX&&惠普打印機2132系統版本：win101、檢查網絡是否暢通，可以在控制面闆上找到該打印機，查看狀态，排除其他原因造成的無法連接。2、打開控制面闆，找到“管理工具”選項，點擊進去。3、在管理工具中找到“本地安全策略”，雙擊打開。4、找到“本地策略”，點擊左側展開選項，找到“用戶權限 2023-07-05
科技内循環外循環一個鍵怎麼區分
1、内循環與外循環是一個按鍵。當你按下内循環時，按鈕内指示燈亮，指示現在是内循環。當再按下内循環鍵時... 2023-07-05
科技 vivo手機怎麼關閉ROOT權限
1、電腦端進入官網，點擊服務，下載對應機型的全量包。2、先點擊資源下載、再點擊下載，等待下載完成，将... 2023-07-05
科技機械井一般多深
1、深井有多深，要看地下水存在的深度，幾十米到幾百米都有可能。但是打成了的深井的水面的高低又是另外一... 2023-07-05
科技蘋果手機隔空投送怎麼使用
1、先在蘋果設備上面開啟隔空投送功能，按照下面的步驟打開：在蘋果設備上面，依次點擊【設置】進入到裡面... 2023-07-05
科技聯通銷戶話費退嗎
1、聯通卡注銷後，能退話費。2、後付費用戶（含後付費上網卡）辦理銷戶手續：（1）個人用戶：機主本人出... 2023-07-05
科技計算機的文件名由主名和什麼組成
華為MateBookX，win10為例。擴展名。電腦的文件名是由文件的主名和擴展名組成的。文件是記錄在存儲介質上的一組被命名的相關信息的集合，與我們平時寫在紙上的文件不是一個概念。文件可以是文字、圖片、影片和一個應用程序。每個文件都必須給它一個命名，這個名字叫做文件名。文件名分為兩部分，中間用一個圓點隔開，圓點後面的就是文件的姓，叫做擴展名。擴展名前面就是文件的主名。作為64位操作系統，Windo 2023-07-05
科技一個手機号可以注冊幾個淘寶号
1、一個手機号隻能注冊一個淘寶号，一個郵箱也隻能注冊一個淘寶号。但是一個手機能綁定6個淘寶号。2、一... 2023-07-05
科技個人征信怎麼查
1、在搜索引擎中搜索“征信”，在搜索結果中找到并點擊“中國人民銀行征信中心”。2、進入新頁面後點擊“... 2023-07-05
科技怎麼看電腦windows版本
1、開始---運行---輸入winver，單擊确定，就可以查看電腦系統的windows版本了。2、c... 2023-07-05
科技 qq會員等級介紹
會員成長體系包含8個階段，分别用VIP1至VIP7表示，具體成長階段取決于會員“成長值”，對應關系表... 2023-07-05
科技 qq聊天記錄文件夾在哪
1、qq聊天記錄裡的在C:Users裡2、查看方法：打開QQ面闆，點擊面闆右下齒輪，該按鈕為“系統設... 2023-07-05
科技蘋果截屏怎麼截
1、方法一：通過快捷鍵截屏，同時按下電源鍵和主屏home鍵即可截屏。2、方法二：設置屏幕快照按鈕，點... 2023-07-05
科技電腦c盤滿了怎麼擴大
1、要想擴大C盤空間，我們可以考慮把D、E、F盤多餘的空間分配給C盤，這裡就需要用到一款軟件——分區... 2023-07-05
科技手機拍照構圖方法和技巧
1、中心對稱構圖法中心對稱構圖是最多人使用的構圖方法，将人物或者拍攝主題直接放在畫面中心的位置，更加... 2023-07-05
科技華為承認碩士單證嗎
1、華為校園招聘會接收單證軟工碩士，不過招聘的崗位較少，建議你及時轉雙證軟工碩士。2、華為校園招聘會... 2023-07-05
科技拖拉機廢氣量大是怎麼回事
1、可能是因為油底殼加機油過量，機油過多，會随着高速運轉的曲軸飛濺到缸壁，并竄入燃燒室。排除方法是停... 2023-07-05
科技圖表單位怎麼标注
演示機型：華為MateBookX系統版本：win10APP版本：word20161、打開已插入拆線圖的word，點擊布局—坐标軸标題，根據需求選擇橫坐标或縱坐标的标題。2、在彈出的文本框中，輸入需要注釋的内容，并拖動相應的位置，即可完成。word快捷鍵：獲取幫助或訪問MicrosoftOffice.comF1移動文字或圖形F2重複上一步操作F4選擇開始選項卡上的定位命令F5前往下一個窗 2023-07-05
科技 excel鎖定某一列不讓修改
演示機型：華為MateBookX系統版本：win10APP版本：excel20131、打開excel表格，把要鎖定的工作表區域選定或者選中整個工作表。2、點擊excel表格工具欄的“開始”菜單，選擇“格式”下面的小三角形。3、在下拉菜單中選中“鎖定工作表”，然後點“設置單元格”。4、進入設置單元格界面， 2023-07-05
科技玩遊戲發熱怎麼辦
1、避免充電時使用手機。給我們手機充電時，一定要放在通風陰涼處，還要把我們手機厚厚的手機殼摘下來。2... 2023-07-05
科技電腦顯示不能正确啟動怎麼辦
1、計算機系統無法正常啟動。您可以嘗試重新啟動計算機。您可以通過按主機重新啟動按鈕來重新啟動計算機，... 2023-07-05
科技蘇氏鑽頭參數表
1、規格參數是1.0-13.0.;蘇氏鑽頭材質一般是：HSS高速鋼H8适用加工強度低，易形成長屑之軟... 2023-07-05
科技華為設置攔截提醒為關機方法是什麼
1、在華為應用商店中搜索下載手機安全助手App。2、下載完畢後在桌面中找到手機安全助手App，點擊進入。3、找到騷擾攔截功能，點擊進入。4、點擊攔截管理，進入到攔截管理設置界面，然後點擊下方的攔截設置。5、點擊攔截來電後返回提示音，在來電攔截的提示音設置界面，可以選擇返回忙音、返回空号、返回已關機或者返回已停機，選擇返回已關機。6、用另一部手機撥打測試即可。 2023-07-05
科技交換機怎麼用
1、首先連接交換機和路由器：分别将網線的兩端查到路由器的LAN口，和交換機上的接口。2、然後連接交換... 2023-07-05
科技蘋果筆記本觸摸條使用技巧
1、一個手指點按相當于點擊鼠标左鍵，可以用來選擇某個應用。2、兩個手指點按相當于點擊鼠标右鍵，可以顯... 2023-07-05
科技 vivo
1、vivoiqoopor5g支持NFc。2、vivo旗下子品牌iQOO手機3月1日正式發布，搭載骁... 2023-07-05
科技影響遙控器遙控的因素有哪些
1、發射功率。發射功率大則距離遠，但耗電大，容易産生幹擾。2、接收靈敏度。接收器的接收靈敏度提高，遙控距離增大，但容易受幹擾造成誤動或失控。3、天線。采用直線型天線，并且相互平行，遙控距離遠，但占據空間大，在使用中把天線拉長、拉直可增加遙控距離。4、高度。天線越高，遙控距離越遠，但受客觀條件限制。5、阻擋。使用的無線遙控器使用國家規定的UHF頻段，其傳播特性和光近似，直線傳播，繞射較小，發射器和接 2023-07-05
科技小米9se在哪裡開啟神秘模式
1、首先，請大家打開MIUI系統中的設置應用，進入手機設置主頁面。2、在MIUI系統設置應用中，點擊... 2023-07-05

tft每日頭條

> 科技

> 大數據信息導論論文