深入理解分布式數據庫-tft每日頭條

深入理解分布式數據庫

科技更新时间:2026-07-12 19:40:08

往期回顧：深入解析ZNBase分布式SQL引擎架構的五大服務組件

導讀

前文提到，ZNBase 是由浪潮開源的一款 NewSQL 分布式數據庫，基于谷歌 Spanner F1 的論文設計，完美繼承了 Spanner 的設計理念，實現了基于對等架構的分布式 SQL 引擎。ZNBase 的 SQL 引擎包含連接、編譯、緩存、分布式日志和分布式執行五大服務組件，實現了多集群多節點協同的高效計算，大大提升了用戶的查詢效率。

為了進一步提升 SQL 引擎的性能，ZNBase 研發團隊結合實際業務需求，在原有架構的基礎上，針對 SQL 引擎的編譯服務、執行服務、算法等方面進行了一系列深度定制化的優化改進工作。本文将這些改進工作逐一展開介紹。

ZNBase 針對 SQL 引擎的優化改進

1.編譯服務優化

1.1 類型、功能、語法兼容

随着日益增多的場景需要，ZNBase 陸續完善了對 PostgreSQL 、Oracle、MySQL 語法、類型、函數的兼容。

深入理解分布式數據庫（深入解析分布式數據庫）1

1.2 計劃優化

1.2.1 直方圖

ZNBase 還擴展了統計信息功能，除了：表的行數，表中列的 Distinct 值（某一列的唯一值總共有多少條），還額外引入了直方圖。為 CBO 的優化提供了更多的一句。

統計信息獲取的簡單流程如下：

對每個 range 進行抽樣，用蓄水池算法生成樣本集合，然後用樣本進行各種統計信息的預估，将結果通過寫入函數 writeResults，寫進系統表 system.table_statistics 中。

1.2.2 執行計劃管理

ZNBase 擴展了對執行計劃的管理，包括執行計劃綁定、自動捕獲綁定、自動更新綁定等。執行計劃綁定功能使得可以在不修改 SQL 語句的情況下選擇指定的執行計劃。用戶通過綁定執行計劃，可以将計劃存入 ZNBase 中，下次再執行解析後計劃相同的 SQL 語句時，隻要取出之前存入的計劃即可，省去了構建計劃的時間。ZNBase 還會智能地自動捕獲執行頻率較多的并且用戶之前沒有手動為其創建綁定的 SQL 語句，在後台自動為其創建計劃綁定。

由于表數據的變化，如：數據變化、數據結構變化、統計信息變化，可能會導緻之前綁定的執行計劃執行效率降低，ZNBase 将自動檢測執行時間，将綁定好的執行計劃進行優化，為用戶提高複合當前數據場景的更高的執行效率。

2. 執行優化

2.1 矢量算子

ZNBase 還引入了矢量算子，相比基于 Goetz Graefe 論文的“火山”模型，“矢量”模型在計算行數明顯大于列數的場景下，性能會有極大的提升。

從原理上講，這是用一系列專門針對數據類型和計算的特定編譯循環代替了通用的類似于解釋器的 SQL 表達式評估器，因此計算機可以連續執行許多更簡單的任務，大大節省了重複的計算所需要的時間。配合 ZNBase 團隊開發的列式存儲，查詢性能還将有進一步的提升。

目前矢量算子支持的類型有：Array、BIT、BOOL、BYTES、COLLATE、DATE、DECIMAL、INET、INT、INTERVAL、JSONB、SERIAL、TIME、TIMESTAMP、TIMESTAMPTZ、UUID、FLOAT、STRING 等。

目前 ZNBase 支持的矢量算子有：Noop、TableReader、Distinct、Ordinality、Hashjoiner、MergeJoiner、Sorter、Windower 等。

舉例來說，請考慮一個包含三列的 People 表：Id，Name 和 Age。在火山模型中，每個數據行由每個算子處理一次 —— 一種逐行執行方法。相比之下，在矢量化執行引擎中，我們一次傳遞了有限大小的面向列數據的批處理。我們使用一組列，而不是使用元組數組的數據結構，其中每一列都是特定數據類型的數組。在該示例中，分批處理将由一個Id的整數數組，一個 Name 的字節數組和 Age 的整數數組組成。下圖顯示了兩個模型中數據布局之間的區别：

深入理解分布式數據庫（深入解析分布式數據庫）2

火山模型

深入理解分布式數據庫（深入解析分布式數據庫）3

矢量模型

SelectName,(Age-30)*50ASBonusFROMPeopleWHEREAge>30;

這樣的語句查詢，在火山模型中，頂級用戶向 Project 算子請求一行，該請求被傳播到底層的 Scan 算子。掃描從鍵值存儲中讀取一行，并将其傳遞給 Select，Select 将檢查該行是否通過了 Age> 30 的謂詞。如果該行通過了檢查，則将其返回給 Project 算子以計算 Bonus = (Age - 30) * 50 作為最終輸出。

深入理解分布式數據庫（深入解析分布式數據庫）4

火山模型流程圖

一次處理一行，對于每一行，我們都在調用一個完全通用的标量表達式的過濾器！表達式可以是任何東西：乘法，除法，相等檢查或内置函數，甚至可以是一長串這樣的東西。由于這種通用性，計算機在每一行上都有很多工作要做——必須在甚至無法執行任何工作之前檢查表達式的含義。與編譯後的語言相比，這種計算方式與解釋型語言同樣麻煩。

在矢量化模型中，我們采用不同的方式。每個矢量化算子背後的原理是在執行期間不允許任何自由度或運行時選擇。這意味着對于任務，數據類型和屬性的任意組合，應該由一個專門的算子來負責這項工作。對于示例查詢，用戶從算子鍊中請求一批。每個算子都向其子級請求一批，執行其特定任務，然後将一批返回給其父級。

深入理解分布式數據庫（深入解析分布式數據庫）5

矢量模型流程圖

為了對此進行可視化，請考慮由 SelectIntGreaterThanInt 處理的 People Batch。該算子将選擇所有大于 30 的 Age 值。這個新的 sel_age batch 然後傳遞到 ProjectSubIntInt 算子，該算子執行簡單的減法運算以生成 tmp batch。最後，将這個 tmp batch 傳遞給 ProjectMultIntInt 算子，該算子将計算最終 Bonus =（Age-30）* 50 值。

深入理解分布式數據庫（深入解析分布式數據庫）6

矢量模型流程圖

2.2 并行優化

在ZNBase的開發過程中也對算子進行了優化，提高了運算效率。

2.2.1 tablereader 并行

Tablereader 通過拆分 Span 進行并行的 baRequest 下發讀取數據，返回的數據封裝進 baResponse 裡面，放入管道由 tablereader 進行并行處理。

tablereader的并行分為以下幾步：

Step1：Span 拆分，邏輯計劃完成後會生成一個 Span ALL（索引、主鍵查詢除外），Span ALL 會根據 table 的 range 邊界拆分從成多個範圍更小的 Span，每個 Span 會獲得相應的 range 信息，根據 rangeID 可以取得對應 range 的副本信息，再根據副本選擇策略（就近選擇、随機選擇、lease holder（默認）），獲取到對應副本的 nodeID，再将該 Span 放入一個 Map 結構（Map[nodeID][]Span）中;

當 tablereader 下發到了對應節點後，再将 Spans 進行均勻分配進 tablereader 的各個 worker fethcer 當中進行并行的數據讀取：

深入理解分布式數據庫（深入解析分布式數據庫）7

Step2：BatchRequest 下發，對應節點的 tablereader 的每個 fetcher 的 spans 的每一個 span 會封裝為一個 ScanRequest 請求，多個 ScanRequest 請求封裝進一個 BatchRequest（BacthRequest 請求中 header 信息可以指定一次請求返回的最大 kv 數目），該 BacthRequest 經過分發層邏輯後下發至對應節點的對應 Store 進行數據查詢，返回的數據封裝為 BatchResponse，包含多個對應的 ScanResponse，将 ScanResponse 的 kv 數據放入 channel 中，再由每個 fetcher 綁定的 worker 進行 kv 解碼以及後續的處理：

深入理解分布式數據庫（深入解析分布式數據庫）8

Step3：數據返回，每個 fetcher 的 worker 協程處理(經過 filter 或 render )完每行 kv 數據後都會放入一個 buffer 當中（默認 buffer 緩存<= 64 行），每個 worker 每完成一個 buffer 會将該 buffer 放入 tablereader 的結果管道中，提供 NextRow 和 NextChunk 兩類接口供上層算子調用：

深入理解分布式數據庫（深入解析分布式數據庫）9

2.2.2 hashjoin 優化

原有 hashjoin 流程圖如下：

深入理解分布式數據庫（深入解析分布式數據庫）10

原有執行流程存在如下問題：

單點流程是串行化執行，導緻取出 outer 表的一行數據需要等待正在進行的 hashjoin 計算完成。
hashjoin 計算隻由一個協程執行，數據量大的時候比較耗時。

經過優化後 hashjoin 由 3 個部分完成：

深入理解分布式數據庫（深入解析分布式數據庫）11

Main thread：構造 hash 表；啟動 Outer Fecther 和 Join Workers；從 join Woker 拿取計算結果，返回至上層；等待所有的 join worker 結束，更新狀态為計算完成。
Outer Fetcher（協程）：循環讀取 Outer 表每一行數據，将讀取的數據通過 channel 傳遞給 Join Woker 進行計算；通知 Join Wokers Outer 表讀取完成。
Join Workers（協程）：将 Outer Fetcher 發送來的數據進行 hash join 計算；将計算結果通過 channel 發送至 Main thread。

優化前後對比分析：

設構造 inner（storedSide）一側的 hash 表時間為 t1
設讀取一條 outer（otherSide）數據時間為 t2
設執行一輪 hashjoin 時間為 t3
設 outer（otherSide）表有 m 條數據

深入理解分布式數據庫（深入解析分布式數據庫）12

深入理解分布式數據庫（深入解析分布式數據庫）13

執行完 hashjoin：

優化前耗時≈t1 m*t2 m*t3

優化後耗時≈t1 (m/n)*t3

Δt≈(m(n-1))/n t3 m*t2

預期：随着 outer 表數據增多和 join worker 協程數增加，理論上優化越明顯。

經優化後有如下優勢：

計算讀取分離：将讀取 outer 表和 hash join 計算分離，使得讀取 outer 表下一行數據不必再等待上一個 hash join 計算完成。
并行計算：啟用多個 join worker 參與 hash join 計算，提高了并行度。

展望未來

大數據行業的發展促進了國産分布式數據庫的演進，為适應這種發展大潮，雲溪 NewSQL 數據庫 ZNBase 也會促使分布式 SQL 引擎更趨向完善，未來會在語法上完全兼容 Oracle 等傳統數據庫，計劃上加入更豐富的 HBO，完善 Cascade 框架，更加智能的提高用戶的使用體驗，執行上會兼容 HTAP 計算方式，順應當下飛速增長的數據量，适配更多的大數據、人工智能、機器學習場景，提供一個更智能、更高效的 SQL 計算引擎。

參考文檔 [1]. Volcano-An Extensible and Parallel Query Evaluation System

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技光貓和路由器的區别有哪些
1、原理不同光貓：将光以太信号轉換成其它協議信号。路由器：讀取每一個數據包中的地址然後決定如何傳送的... 2023-06-30
科技電腦怎麼用手機流量上網
1、要先确定電腦的無線網絡能不能用，再确認是否支持wifi功能和熱點功能，并且已經開通了手機流量，這樣都确認好之後，才能進行下一步。2、在确定電腦無線網絡可以使用之後，要在手機設置裡面打開無線功能，然後進入手機的設置界面。不過，不同的手機，它們的品牌、型号、功能都不同，所以，打開的界面也會有所不同)... 2023-06-30
科技皮皮蝦怎麼去水印
本期圖文教程是由iphone11，系統ios14，皮皮蝦v3.1.5制作。1、打開皮皮蝦，點視頻的分享按鈕。2、在彈出的對話框裡點複制鍊接。3、在微信搜索框裡搜索“小視頻保存”小程序。4、粘貼複制的鍊接，點解析然後預覽。5、點最下面的下載視頻，下載完畢後到相冊查看。 2023-06-30
科技雙攝像頭有什麼用
1、手機雙攝像頭它是由一個主攝像頭加上一個輔助攝像頭構成的。但是這樣的搭配最大的用途并非為了提高照片... 2023-06-30
科技潘建偉合作的量子衛星是什麼
中國量子通信衛星。這是中國和世界首個量子衛星。該衛星的發射将使中國在國際上率先實現高速星地量子通信，連接地面光纖量子通信網絡，初步構建量子通信網絡。衛星是指在圍繞一顆行星軌道并按閉合軌道做周期性運行的天然天體，人造衛星一般亦可稱為衛星。人造衛星是由人類建造，以太空飛行載具如火箭、航天飛機等發射到太空... 2023-06-30
科技孕婦照自拍教程
1、注意選擇拍照的時間。建議孕婦照最好選擇7，8個月的時候拍最合适，這個時候肚子已經很明顯了，行動也... 2023-06-30
科技堿性和碳性電池的區别
環保程度不同、電量不同、用途不同。1、環保程度不同：堿性電池還有一個名稱是堿性幹電池或堿性鋅錳幹電池。堿性電池内阻比碳性電池要環保，堿性電池含汞量隻有0.025%，不需要回收，因此堿性電池比碳性電池要環保。2、電量不同：從最基本的電量上來看，堿性電池比碳性電池性價比要高一些。堿性電池的容量，會因出電... 2023-06-30
科技 mate40内存
華為Mate40共有兩款内存可供選擇，分别是8GB+128GB、8GB+256GB.華為Mate40分辨率為2376*1080,刷新率為90Hz,觸控采樣率240Hz,P3色域，支持2D人臉識别和屏下指紋解鎖。華為Mate40系列充電速度再升級，有線66W,無線50W選擇。華為Mate40搭載了50... 2023-06-30
科技壁挂爐e6是什麼故障碼
1、煙管堵塞，隻要清理掉堵塞物，把附着在煙管内壁的髒物清除幹淨就可以恢複。2、風壓開關故障，如果壁挂爐風壓出現故障，就會出現排煙報錯，需要更換風壓開關。3、風機故障，更換風機即可。4、風機或者開關的連線處脫落，最好請專業的人員來維修。5、電路闆故障，需要報修，建議不要自己去更換。燃氣壁挂爐的正确使用... 2023-06-30
科技北鬥定位掉線是什麼意思
1、北鬥是中國自主研發的北鬥衛星導航系統，北鬥定位掉線是指北鬥定位器與服務器的交互斷開，這時在監控平... 2023-06-30
科技用紙怎麼做手機殼
1、準備uv膠水，刻刀，剪刀，尺子，墊闆，打印紙，就這小東西而已。打印紙依據自己的手機型号準備大小。... 2023-06-30
科技電腦軟件裝在哪個盤合适
最好安裝在D、E、F盤。不同的盤有不同的作用，存儲不同的文件資料，新的硬盤都會進行分區操作。C盤為系統盤，一般用于存儲或安裝系統應用，當C盤安裝的應用過多時，系統的運行空間就會變得不足，從而拖慢電腦的運行速度。建議一般軟件都不要安裝在C盤，除了一些必須安裝在C盤上的軟件。C盤：1、C盤是指電腦硬盤主... 2023-06-30
科技電腦開機後怎麼不啟動不了怎麼回事
1、準備工作：一個8G空U盤，一台正常上網的電腦，以及重裝工具。2、打開重裝工具，關閉電腦殺毒，然後... 2023-06-30
科技蘋果手機定位對方位置對方知道嗎
1、蘋果定位别人手機對方不會發現。2、蘋果手機定位隻會顯示下列事項:若使用網頁登錄icloud去查找... 2023-06-30
科技怎麼确認聯通已經銷戶成功
拿着身份證去當地的營業廳查詢，直接詢問工作人員即可。嘗試撥打已經銷戶的号碼，如果銷戶成功，會提示該号碼是空号。登錄聯通網上營業廳，如果還可以登錄就說明還沒有完成銷戶。登錄進去之後點擊查詢業務，可以在業務辦理記錄中查詢銷戶進度。如果無法登錄進去，說明号碼已經銷戶。如果不想去營業廳銷戶的話，其實可以在網... 2023-06-30
科技壁挂爐ef是什麼故障
傳感器插腳松脫或接觸不良。解決方法：調整插腳位置維修傳感器。傳感器損壞，阻值不對。解決方法：請專業的人士将傳感器内部的元件全部重新更換。控制電路闆故障，無法接收及發出控制信号。解決方法：維修更換控制電路闆。壁挂爐還會經常出現哪些故障：1、溫度傳感器無法正常工作。解決辦法：需要讓技術人員上門查看一下傳... 2023-06-30
科技支付寶反詐騙中心打電話是幹嘛的
支付寶提醒對方賬戶存在欺詐等情況，要引起重視。在支付寶推送信息時，按照智能分析後給轉賬人做提醒。支付寶聯合警方優化了反詐騙的流程：對于選擇延時到賬的用戶，如果在到賬前發現被騙了，雖然用戶無法自行撤回，但隻要上傳報警的相關憑證，這筆轉賬就會被臨時凍結。一旦警方判斷确實系詐騙，轉賬就能原路返回。支付寶（中國）網絡技術有限公司是國内的第三方支付平台，緻力于提供“簡單、安全、快速”的支付解決方案。支付寶公 2023-06-30
科技怎麼删除内存垃圾oppo
1、清理加速：首先oppo手機有自帶的手機清理垃圾功能，我們可以找到手機的清理功能，選擇【清理加速】... 2023-06-30
科技 12v45ah電瓶充電用多大電流
12v45ah電瓶充電需要使用的充電電流為2.5AH，最高不能超過3.5AH，放電電流300A-400A，極限（一般）為450A（啟動瞬間）。12v45ah電瓶多為啟動型電池，适用于各種小型車輛。另外，一些電池上面标有低溫啟動電流，在電瓶外殼标注信息上我們除了看到上面兩個數據外，還有一個标識是“CC... 2023-06-30
科技京東自營退貨運費誰承擔
如果是因為買家的問題需要換貨，一般運費由買家承擔；如果是京東商家的問題而産生換貨的操作，則由商家承擔，不過需要買家自己先行墊付，後面商家會返到買家的京東賬戶内。京東：京東（股票代碼：JD），中國自營式電商企業，創始人劉強東擔任京東集團董事局主席兼首席執行官。旗下設有京東商城、京東金融、拍拍網、京東智... 2023-06-30
科技快手把對方拉黑還能看到我作品嗎
不能。快手拉黑别人後，對方就會從粉絲裡消失，被拉黑的對象就不能看你的作品，也不能點評。如果你的快手被對方拉黑，那麼你給他點關注、愛心、評論作品，都會顯示對方不允許該操作，被對方拉黑後，将收不到對方的動态更新，發送消息也會提示發送失敗。快手：快手是北京快手科技有限公司旗下的産品。快手的前身，叫GIF快... 2023-06-30
科技路由器天線不豎起來會有影響嗎
有影響。以常用的tp-link路由器為例。路由器的外置天線，垂直90度向上布置才是無線覆蓋最廣的布置方式，建議發現路由器傾倒之後，需要及時調整角度。目前更多的路由器已變為内置全向天線，如此設計更為方便，不用再擔心路由器天線傾倒。路由器是連接兩個或多個網絡的硬件設備，在網絡間起網關的作用，是讀取每一個... 2023-06-30
科技 pln密碼是什麼?
PIN碼（PIN1），全稱PersonalIdentificationNumber。是SIM卡的個人識别密碼。手機的PIN碼是保護SIM卡的一種安全措施，防止别人盜用SIM卡，如果啟用了開機PIN碼，那麼每次開機後就要輸入4到8位數PIN碼。在輸入三次PIN碼錯誤時，手機便會自動鎖卡，并提示輸入PU... 2023-06-30
科技真正綠泥紫砂壺顔色
1、真正綠泥紫砂壺是或深或淺的黃色。2、真正的原礦綠泥是含鋁較高的的一種泥料，因為氧化鋁的含量極高，... 2023-06-30
科技如何挑選投影儀
1、占用空間小，一台投影儀的尺寸該在130*130*130左右，所以空間占用很有優勢。2、音響好，現... 2023-06-30
科技知道ip地址怎麼查位置
1、點擊電腦右下角的電腦圖标，将網絡共享中心選擇打開并進入。2、進入到網絡共享中心之後，玩家選擇本地... 2023-06-30
科技微信提現一千手續費多少
1元。微信提現費率為0.10%，100元手續費是0.1元、1000元手續費是1元、10000元手續費是10元；以此類推。2016年3月1日起，對個人用戶的微信零錢提現功能開始收取手續費。按照微信的說法，一直以來，微信都承擔着微信紅包和微信轉賬使用過程中銀行卡資金轉入成本，而微信紅包和微信轉賬已達到超... 2023-06-30
科技液壓帳篷撐不開原因
1、主要介紹一下液壓款的自動帳篷，這種帳篷想較于拉繩款和彈簧款，就容易很多了。取出帳篷，依次攤開四角... 2023-06-30
科技 ps4鎖區鎖服什麼意思
鎖區的意思是對遊戲版本鎖區，比如日版的遊戲機隻能玩日版的遊戲，但是ps4基本不鎖區，隻是國行的ps4鎖服，不能登錄外服而已。PlayStation4是索尼電腦娛樂公司推出的家用遊戲機。是PlayStation遊戲機系列的第四代遊戲主機，采用AMDJaguar8core處理器。 2023-06-30
科技設置電腦屏保的方法
1、點擊鼠标右鍵，打開功能選項框。2、點擊個性化，進入個性化設置。3、找到右下方的屏幕保護程序，點擊... 2023-06-30

tft每日頭條

> 科技

> 深入理解分布式數據庫

深入理解分布式數據庫

相关科技资讯推荐

热门科技资讯推荐

网友关注