實時數倉和離線數倉-tft每日頭條

實時數倉和離線數倉

生活更新时间:2026-07-16 06:42:47

實時數倉和離線數倉（一篇文章讀懂實時數倉的過去）1

1991年，比爾·恩門（Bill Inmon）出版了他的第一本關于數據倉庫的書《Building the Data Warehouse》，标志着數據倉庫概念的确立。
我們所常說的企業數據倉庫Enterprise Data Warehouse (EDW) ，就是一個用于聚合不同來源的數據（比如事務系統、關系數據庫和操作數據庫），然後方便進行數據訪問、分析和報告的系統（例如銷售交易數據、移動應用數據和CRM數據），隻要數據彙集到數倉中，整個企業都訪問和使用，從而方便大家來全面的了解業務。我們的數據工程師和業務分析師可以将這些不同來源的相關數據應用于商業智能（BI）和人工智能（AI）等方面，以便帶來更好的預測，并最終為我們作出更好的業務決策。

企業為什麼需要實時數據倉庫

傳統意義上的數據倉庫主要處理T 1數據，即今天産生的數據分析結果明天才能看到，T 1的概念來源于股票交易，是一種股票交易制度，即當日買進的股票要到下一個交易日才能賣出。
随着互聯網以及很多行業線上業務的快速發展，讓數據體量以前所未有的速度增長，數據時效性在企業運營中的重要性日益凸現，企業對海量數據的處理有了更高要求，如非結構化數據處理、快速批處理、實時數據處理、全量數據挖掘等。由于傳統數據倉庫側重結構化數據，建模路徑較長，面對大規模數據處理能力有限，企業急需提升大數據處理時效，以更經濟的方式發掘數據價值。
數據的實時處理能力也成為企業提升競争力的一大因素。

數據處理流程

在了解數倉如何實時處理之前，我們先來了解數據的分層。每個企業根據自己的業務需求可以分成不同的層次，但是最基礎的分層思想，理論上數據分為三個層：貼源層（ODS)、數據倉庫層（DW）、數據服務層(APP/DWA)。基于這個基礎分層之上滿足不同的業務需求。

ODS：Operation Data Store，也稱為貼源層。數據倉庫源頭系統的數據表通常會原封不動的存儲一份，這稱為ODS層，是後續數據倉庫加工數據的來源。
DW數據分層，由下到上一般分為DWD，DWB，DWS。

DWD：Data Warehouse Details 細節數據層，是業務層與數據倉庫的隔離層。主要對ODS數據層做一些數據清洗(去除空值、髒數據、超過極限範)和規範化的操作。
DWB：Data Warehouse Base 數據基礎層，存儲的是客觀數據，一般用作中間層，可以認為是大量指标的數據層。
DWS：Data Warehouse Service 數據服務層，基于DWB上的基礎數據，主要是對用戶行為進行輕度聚合，整合彙總成分析某一個主題域的服務數據層，一般是寬表。用于提供後續的業務查詢，OLAP分析，數據分發等。

數據服務層/應用層(APP/DWA)：該層主要是提供數據産品和數據分析使用的數據，我們通過說的報表數據，或者說那種大寬表，一般就放在這裡。

實時數倉的常見方案

當前，數據倉庫被分為離線數倉和實時數倉，離線數倉一般是傳統的T 1型數據ETL方案，而實時數倉一般是分鐘級甚至是秒級ETL方案。并且，離線數倉和實時數倉的底層架構也不一樣，離線數倉一般采用傳統大數據架構模式搭建，而實時數倉則采用Lambda、Kappa等架構搭建。

LAMBDA & KAPPA 實時架構

目前，實時處理有兩種典型的架構：Lambda 和 Kappa 架構。出于曆史原因，這兩種架構的産生和發展都具有一定局限性。
Lambda架構：在離線大數據架構的基礎上增加新鍊路用于實時數據處理，需要維護離線處理和實時處理兩套代碼；
Lambda 架構通過把數據分解為服務層（Serving Layer）、速度層（Speed Layer，亦即流處理層）、批處理層（Batch Layer）三層來解決不同數據集的數據需求。在批處理層主要對離線數據進行處理，将接入的數據進行預處理和存儲，查詢直接在預處理結果上進行，不需再進行完整的計算，最後以批視圖的形式提供給業務應用。
在實際生産環境中的部署通常可以參見下圖，一般要通過一系列不同的存儲和計算引擎 (HBase、Druid、Hive、Presto、Redis 等) 複雜協同才能滿足業務的實時需求，此外多個存儲之間需要通過數據同步任務保持大緻的同步。Lambda 架構在實際落地過程中極其複雜，使整個業務的開發耗費了大量的時間。

實時數倉和離線數倉（一篇文章讀懂實時數倉的過去）2

缺點：
(1) 由多個引擎和系統組合而成，批處理 (Batch)、流處理 (Streaming) 以及合并查詢 (Merged Query) 的實現需要使用不同的開發語言，造成開發、維護和學習成本較高；(2) 數據在不同的視圖 (View) 中存儲多份，浪費存儲空間，數據一緻性的問題難以解決。
Kappa架構：希望做到批流合一，離線處理和實時處理整合成一套代碼，減小運維成本。Kappa 架構在 Lambda 架構的基礎上移除了批處理層，利用流計算的分布式特征，加大流數據的時間窗口，統一批處理和流處理，處理後的數據可以直接給到業務層使用。因為在 Kappa 架構下，作業處理的是所有曆史數據和當前數據，其産生的結果我們稱之為實時批視圖（Realtime_Batch_View）。
Kappa 架構的流處理系統通常使用 Spark Streaming 或者 Flink 等實現，服務層通常使用MySQL 或 HBase 等實現。

實時數倉和離線數倉（一篇文章讀懂實時數倉的過去）3

Kappa 架構部署圖
缺點：(1) 依賴 Kafka 等消息隊列來保存所有曆史，而Kafka 難以實現數據的更新和糾錯，發生故障或者升級時需要重做所有曆史，周期較長；(2) Kappa 依然是針對不可變更數據，無法實時彙集多個可變數據源形成的數據集快照，不适合即席查詢。

因為上述的缺點，Kappa架構在現實中很少被應用。

湖倉一體能否解決實時問題？

時下熱門的湖倉一體能否解決實時問題呢？湖倉一體有何标準？Gartner 認為湖倉一體是将數據湖的靈活性和數倉的易用性、規範性、高性能結合起來的融合架構，無數據孤島。
作為數據湖和數據倉庫的完美結合，新一代的湖倉一體架構重點關注和解決了近年來數字化轉型帶來的業務需求和技術難點，具體包括如下以下方面：

實時性成為了提升企業競争力的核心手段。目前的湖、倉、或者湖倉分體都是基于 T 1 設計的，面對 T 0 的實時按需分析，用戶的需求無法滿足。
所有用戶（BI 用戶、數據科學家等）可以共享同一份數據，避免數據孤島。
超高并發能力，支持數十萬用戶使用複雜分析查詢并發訪問同一份數據。
傳統 Hadoop 在事務支持等方面的不足被大家诟病，在高速發展之後未能延續熱度，持續引領數據管理，因此事務支持在湖倉一體架構中應得到改善和提升。
雲原生數據庫已經逐漸成熟，基于存算分離技術，可以給用戶帶來多種價值：降低技術門檻、減少維護成本、提升用戶體驗、節省資源費用，已成為了湖倉一體落地的重要法門。
為釋放數據價值提升企業智能化水平，數據科學家等用戶角色必須通過多種類型數據進行全域數據挖掘，包括但不限于曆史的、實時的、在線的、離線的、内部的、外部的、結構化的、非結構化數據。

雲原生數據倉庫 Omega實時架構實現實時湖倉

雲原生數據庫實現完全的存算分離
雲原生數據庫如 OushuDB 和 Snowflake 突破了傳統 MPP 和 Hadoop 的局限性，實現了存算完全分離，計算和存儲可部署在不同物理集群，并通過虛拟計算集群技術實現了高并發，同時保障事務支持，成為湖倉一體實現的關鍵技術。以 OushuDB 為例，實現了存算分離的雲原生架構，并通過虛拟計算集群技術在數十萬節點的超大規模集群上實現了高并發，保障事務支持，提供實時能力，一份數據再無數據孤島。
基于Omega實時框架的湖倉方案
我們前面提到，既然 Kappa 架構實際落地困難，Lambda 架構又很難保障數據的一緻性，兩個架構又都很難處理可變更數據（如關系數據庫中不停變化的實時數據），那麼自然需要一種新的架構滿足企業實時分析的全部需求，這就是 Omega 全實時架構，Omega 架構由偶數科技根據其在各行業的實踐提出，同時滿足實時流處理、實時按需分析和離線分析。
Omega 架構由流數據處理系統和實時數倉構成。相比 Lambda 和 Kappa，Omega 架構新引入了實時數倉和快照視圖 (Snapshot View) 的概念，快照視圖是歸集了可變更數據源和不可變更數據源後形成的 T 0 實時快照，可以理解為所有數據源在實時數倉中的鏡像和曆史，随着源庫的變化實時變化。
因此，實時查詢可以通過存儲于實時數倉的快照視圖得以實現。實時快照提供的場景可以分為兩大類：一類是多個源庫彙集後的跨庫查詢，比如一個保險用戶的權益視圖；另一類是任意時間粒度的分析查詢，比如最近 5 分鐘的交易量、最近 10 分鐘的信用卡開卡量等等。
另外，任意時間點的曆史數據都可以通過 T 0 快照得到（為了節省存儲，T 0 快照可以拉鍊形式存儲在實時數倉 ODS 中，所以快照視圖可以理解為實時拉鍊），這樣離線查詢可以在實時數倉中完成，離線查詢結果可以包含最新的實時數據，完全不再需要通過傳統MPP Hadoop湖倉分體組合來處理離線跑批及分析查詢。

實時數倉和離線數倉（一篇文章讀懂實時數倉的過去）4

Omega 架構邏輯圖
流處理系統既可以實現實時連續的流處理，也可以實現 Kappa 架構中的批流一體，但與Kappa 架構不同的是，OushuDB 實時數倉存儲來自 Kafka 的全部曆史數據（詳見下圖），而在 Kappa 架構中源端采集後通常存儲在 Kafka 中。

實時數倉和離線數倉（一篇文章讀懂實時數倉的過去）5

Omega 架構部署圖
因此，當需要流處理版本變更的時候，流處理引擎不再需要訪問 Kafka，而是訪問實時數倉 OushuDB 獲得所有曆史數據，規避了 Kafka 難以實現數據更新和糾錯的問題，大幅提高效率。此外，整個服務層也可以在實時數倉中實現，而無需額外引入 MySQL、HBase 等組件，極大簡化了數據架構，實現了湖倉市一體（數據湖、數倉、集市一體）。實現了全實時 Omega 架構的湖倉一體，我們也稱之為實時湖倉一體。

實時數倉和離線數倉（一篇文章讀懂實時數倉的過去）6

Omega vs. Lambda vs. Kappa
結語：
面對複雜多變的新業務場景，随着數據技術不斷成熟，新的實時技術棧會出現，數據技術也會經曆分離與融合。目前，融合的趨勢比較明顯，如實時湖倉一體，将實時處理能力融入數據倉庫中。不論企業如何選型實時數倉，數據平台技術棧的建設一般都應該遵循三條基本原則：

架構層面要保持靈活開放，支持多種技術兼容性并存。目前，企業已經部署了多個系統，有自己的一套架構體系，技術融合落地時需要最大化利用企業原有IT資産，保護客戶投資。
有效利用資源，降本增效。原來傳統的技術棧，所有資源參與計算，造成IT資源浪費。比如，雲原生資源池化，可以實現資源隔離與動态管理，便于最大化利用資源。
滿足更高的用戶體驗。從用戶角度來看，在技術條件具備的前提下，比如高性能、高并發、實時性更強，便具備了更強的信息加工能力，能夠在很短的時間内滿足用戶各種各樣的數據服務需求，提升用戶體驗。

随着實時分析場景日益增多，實時數倉等具備實時處理能力的産品與解決方案将會得到更廣泛的應用。

,

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活吉林白城一季度經濟增速公布
被國家統計局通報批評後，5月6日，吉林白城市統計局公布《2019年地區生産總值1-3月》季報。觀察者網查詢白城市政府網站發現，經初步核算，今年1至3月白城市生産總值增長率為-16.2%。其中，該市第一産業增長3%，第二産業和第三産業的增長率... 2022-11-20
生活選擇大于努力的下一句
選擇大于努力的下一句?選擇大于努力的下一句：性格決定命運，我來為大家科普一下關于選擇大于努力的下一句?下面希望有你要的答案，我們一起來看看吧!選擇大于努力的下一句選擇大于努力的下一句：性格決定命運。含義：一個人的性格會影響他的前途，選擇正确... 2022-07-05
生活催熟西瓜有什麼特點
催熟西瓜有什麼特點?催熟的西瓜，顔色看起來有點暗紅，而且不均勻，在瓜籽的周圍會有一小圈顔色比其它地方深一些有的西瓜籽上會出白點，今天小編就來聊一聊關于催熟西瓜有什麼特點?接下來我們就一起去研究一下吧!催熟西瓜有什麼特點催熟的西瓜，顔色看起來... 2022-06-30
生活戰狼2吳京張翰飙戲
戰狼2已經上映26天了，26天裡面戰狼2票房高達51.38億，其實早在8月19日的晚上戰狼2的票房就超過50億了。吳京當初拍攝戰狼2的時候花費了2億，本來吳京還擔心戰狼2會不會虧本，沒想到現在已經賺了50億了。吳京給戰狼2演員們的片酬都不高... 2023-01-10
生活藍蝴蝶花茶的禁忌有哪些注意事項
藍蝴蝶花茶的禁忌有哪些注意事項?藍蝴蝶花茶在沖泡，飲用時禁止和其他中藥材搭配在一起；寒性體質和脾胃虛寒以及經常腹瀉的人群都禁止喝藍蝴蝶花茶；藍蝴蝶的根莖是有毒的，最好不要食用我們要泡茶，可以用藍蝴蝶花來泡，接下來我們就來聊聊關于藍蝴蝶花茶的... 2022-06-27
生活合肥規劃幾條地鐵線路
官方确認！合肥第三輪軌道交通“藍圖”已報批!未來合肥軌道交通還将繼續開建，市民出行将更！便！捷！第三輪軌道交通“藍圖”報批記者從市軌道公司獲悉，《合肥市城市軌道交通建設規劃中期評估分析報告》已正式上報國家發改委審查，這為第三輪建設規劃正式獲... 2022-11-11
生活群情激奮的意思
群情激奮的意思?群情激憤是一個漢語成語，讀音是qúnqíngjīfèn群：衆人，群衆情：情緒激憤：激動而憤慨形容群衆情緒激動而憤慨，我來為大家科普一下關于群情激奮的意思?下面希望有你要的答案，我們一起來看看吧!群情激奮的意思群情激憤是一個漢... 2022-06-23
生活虎皮蘭最忌諱什麼屬相
【六一兒童網導讀】虎皮蘭為百合科、虎尾蘭屬，又稱：虎尾蘭、千歲蘭、虎尾掌、錦蘭是多年生常綠草本植物。虎皮蘭葉片堅挺直立，姿态剛毅，奇特有趣;它品種較多，株形和葉色變化較大，精美别緻;對環境的适應能力強，是一種堅韌不拔的植物。适合布置裝飾書房... 2022-11-26
生活海棠樹怎樣移栽成活
海棠樹怎樣移栽成活?移栽時間想要海棠樹移栽成活，就要選擇在每年春季的3-4月或秋季的8-9月份進行，因為此時的溫度能穩定在15℃左右，且光照和濕度較為适宜，有利于提高植株的發芽率，但是具體的移栽時間要根據當地的天氣狀态進行調整，今天小編就來... 2022-08-25
生活把每一次遇見都當作最後一次
人就像其他生物一樣，需要足夠的養分，才能健康地精神地活着，隻是人不止需要食物，水份等物質食糧，還需要充沛的精神食糧。最近不管在工作還是生活中我都得到了很多養分，心動，興奮，幸福，美好感從身體的各個部分湧起，内心也充滿了希望和力量，一切都是... 2022-11-10
生活為什麼魚頭炖豆腐湯那麼香
關注我，每天精彩不斷！導讀：炖豆腐魚頭湯時，牢記“2要3不要”，魚鮮香無腥味，湯奶白營養佳冬天氣溫比較低，在氣溫低的時候就要多喝湯，一碗熱乎乎的湯水下肚，營養滋補的同時又能暖身暖胃，作用非常大。說起湯水，今天我來給大家分享一碗湯，這碗湯不是... 2023-01-01
生活遼甯省人口最多的縣市
遼甯，簡稱遼，取遼河流域永遠安甯之意而得其名。遼甯省行政建置最早起源于春秋戰國時期。從燕國置遼東、遼西郡開始，遼甯的建置進入了有史可考的時代。遼甯省是中華民族和中華文明的重要發源地之一，是東北地區唯一的既沿海又沿邊、中國最北端的沿海省份。目... 2022-10-25
生活怎麼變成易瘦體質的
怎麼變成易瘦體質的?調整睡眠：首先，需要把睡眠時間調整起來，改變原來愛熬夜、作息不規律的壞習慣，這些壞習慣都是造成發胖體質的直接原因，必須杜絕掉熬夜也是長胖和衰老的元兇，千萬不能對熬夜掉以輕心，不到逼不得已的時候，盡量不要熬夜，要克制自己玩... 2022-06-18
生活限時優惠房是怎麼回事
限時優惠房是怎麼回事?嗯，是不是近期看到威海不少樓盤發出了“工抵房”，好吧，其實也不是近期才有的，而是早已有之，我來為大家講解一下關于限時優惠房是怎麼回事?跟着小編一起來看一看吧!限時優惠房是怎麼回事嗯，是不是近期看到威海不少樓盤發出了“工... 2023-01-13
生活什麼花是最好的懶人花
伴随着信息化社會的飛速發展，越來越多的人，開始喜歡在自己的家裡養上幾株美麗的花卉，時間過得非常快，那麼不妨試着感受一下養花慢下來的樂趣。尤其是不同的花卉的花型，花色和花香味更是各有各的風情，養上幾株在家裡，就好像是在感受另一種生命的獨特。一... 2022-11-23
生活如何将羊羔毛外套搭配的時尚好看
現在天氣冷了，很多人喜歡穿羊羔毛外套，羊羔毛外套是冬季很流行的外套之一，羊羔毛外套既時尚又保暖，實用性很高。寒冷的冬季，一件羊羔絨外套必不可少，既保暖又時髦。都知道羊羔毛是非常保暖的，而羊羔毛的外套在秋冬就成了最受歡迎的單品，尤其是在年輕人... 2022-11-11
生活減掉手贅肉的方法
減掉手贅肉的方法?手握啞鈴或裝滿水(或砂)的保特瓶，由前而上伸直再往後，謹記要貼緊你的耳朵來做這個動作緩緩往前放下，重複此動作十五次，做完時上手臂會有酸酸的感覺，那就對了，每天做四十五次，可分開做，下面我們就來說一說關于減掉手贅肉的方法?我... 2022-07-18
生活夢見别人家出殡的隊伍是什麼意思
夢見别人家出殡的隊伍是什麼意思?創業的人夢見别人家出殡的隊伍，代表最後一兩年較不利，以後順利賺錢，下面我們就來聊聊關于夢見别人家出殡的隊伍是什麼意思?接下來我們就一起去了解一下吧!夢見别人家出殡的隊伍是什麼意思創業的人夢見别人家出殡的隊伍，... 2022-06-05
生活哪吒為什麼要幫孫悟空鬧天庭
孫悟空大鬧天宮的故事，相信大家已經能夠倒背如流。當年孫悟空因王母開蟠桃會沒請他，所以偷了蟠桃、盜了禦酒、吃了仙丹反下界去。玉帝聞言大怒，封托塔天王李靖為降魔大元帥，哪吒為副帥，率領巨靈神、四值功曹、五方揭谛、九曜星官、十二元辰、二十八宿帶十... 2023-01-14
生活西遊記每回故事梗概
西遊記每回故事梗概?第一回：東勝神洲傲來國海中有花果山，山項上一仙石孕育出一石猴石猴在所居澗水源頭尋到名為“水簾洞”的石洞，被群猴擁戴為王，下面我們就來說一說關于西遊記每回故事梗概?我們一起去了解并探讨一下這個問題吧!西遊記每回故事梗概第一... 2022-07-02
生活好運财運吉祥順利網名
好運财運吉祥順利網名?吉祥财子和氣生财，下面我們就來說一說關于好運财運吉祥順利網名?我們一起去了解并探讨一下這個問題吧!好運财運吉祥順利網名吉祥财子。和氣生财。吉祥如意。愛一個人好難。新春如意。日進鬥金。盡善盡美。七星高照。向着成功前進。财... 2022-06-12
生活不鏽鋼糊鍋後如何清洗鍋底
不鏽鋼糊鍋後如何清洗鍋底?工具：白醋、熱水将糊鍋的鍋裡面加入冷水，然後加熱冷水，今天小編就來聊一聊關于不鏽鋼糊鍋後如何清洗鍋底?接下來我們就一起去研究一下吧!不鏽鋼糊鍋後如何清洗鍋底工具：白醋、熱水。将糊鍋的鍋裡面加入冷水，然後加熱冷水。然... 2022-06-06
生活 cosplay世界名畫怎麼拍
近日，上海楊浦區社會福利院裡的爺爺奶奶用精湛的“演技”，神還原了多幅世界名畫。社工部負責人黃女士表示，福利院每年都有“美的影像，愛的傳承”活動，今年受疫情影響不能辦大型活動，大家想起網上模仿名畫的片段，便制作了這段視頻。73歲“戴珍珠耳環的... 2022-10-25
生活美國失業率幾點公布
美東時間7月2日8:30，據美國勞工部公布的就業報告顯示，6月份美國失業率降至11.1%，明顯低于5月的13.3%；6月非農就業人口環比增加480萬，也明顯好于預期。這一消息讓美國總統特朗普大為振奮，他立即在社交媒體上發文：“偉大的就業數據... 2022-10-25
生活輸尿管鏡取石療效怎麼樣
輸尿管軟鏡集合電子、機械、沖水等多種功能于一身，被比喻為“人體下水道機器人”軟鏡，顧名思義，就是“可以彎曲輸尿管鏡”。其原理是利用輸尿管軟鏡可彎曲的特點，順應人體自然腔道，經過尿道、膀胱、輸尿管、到達腎髒（腎盂、腎盞），不開刀、不打孔就可以... 2022-11-25
生活大熊座的明顯标志是什麼
大熊座的明顯标志是什麼?大熊座的明顯标志是北鬥七星在北天排列成鬥（或勺）形，常被當作指示方向和認識星座的重要标志因為這七顆星較易被觀星者辨認出來，所以成為一個明顯且重要的星群，現在小編就來說說關于大熊座的明顯标志是什麼?下面内容希望能幫助到... 2022-08-15
生活聯系電話英文
聯系電話英文?聯系電話：Telephone;Phone;ContactNumber;例句：别忘了你們的地址與聯系電話Don'tforgetyouraddressandtelephonenumber，下面我們就來聊聊關于聯系電話英文?接下來我... 2022-07-26
生活十二星座聽過最紮心的話
在你眼中，十二星座的性格都是什麼樣子的呢？——别說，先讓文字君來一段Freestyle：白羊沖動金牛摳門雙子神經質！巨蟹多疑獅子自戀處女愛挑剔！天秤糾結天蠍腹黑射手太花心！摩羯悶騷水瓶另類雙魚腦洞大！好吧，這些都是針對星座性格的大衆認知。如... 2022-11-09
生活瓜頭鲸多大
瓜頭鲸多大?瓜頭鲸（學名：Peponocephalaelectra），其特征與侏虎鲸屬基本相似，但牙齒的數目較多，每側的上、下颌均在20-26枚之間，脊椎骨的數目也比較多，大約有80枚左右沒有喙，從吻端起頭部逐漸膨大從上面看，吻端較尖鳍肢的... 2022-06-12
生活嶺南山竹繁殖方法
嶺南山竹繁殖方法?壓條法，這種繁殖方法是要把母株的枝條壓進土壤中，利用一定的辦法來讓它生根，進而獲取新的植物壓條這種方法操作起來比較方便，壓條完一般也不需要什麼特别的管理，所以成活率一般來說比較高這是一種木本的花卉經常用的繁殖方法，今天小編... 2022-07-10

tft每日頭條

> 生活

> 實時數倉和離線數倉

實時數倉和離線數倉

相关生活资讯推荐

热门生活资讯推荐

网友关注