tft每日頭條

 > 科技

 > 大數據與商務分析是什麼

大數據與商務分析是什麼

科技 更新时间:2024-08-02 03:03:35

伴随5G、大數據、AI、物聯網的飛速發展,數據呈現大規模、多樣性的極速增長,為了應對多變的業務訴求,企業對數據處理分析的實時性和融合性提出了更高的要求,“倉湖一體(Lake House)”的概念應運而生。無論在技術圈還是資本圈,倉湖一體都受到了前所未有的關注度。那麼什麼是倉湖一體,倉湖一體架構是否會成為企業的必選項?又如何進行倉湖一體架構設計呢?

湖倉對比,各有千秋

一直以來,我們都在使用兩種數據存儲方式來架構數據:

1、數據倉庫:主要存儲的是以關系型數據庫組織起來的結構化數據。數據通過轉換、整合以及清理,并導入到目标表中。在數倉中,數據存儲的結構與其定義的schema是強匹配的。

2、數據湖:存儲任何類型的數據,包括像圖片、文檔這樣的非結構化數據。數據湖通常更大,其存儲成本也更為廉價。存儲其中的數據不需要滿足特定的schema,數據湖也不會嘗試去将特定的schema施行其上。相反的是,數據的擁有者通常會在讀取數據的時候解析schema,當處理相應的數據時,将轉換施加其上。

縱觀數據湖與數據倉庫的技術發展,不難發現兩者有着各自的優劣,具體表現如下:

大數據與商務分析是什麼(什麼是倉湖一體架構)1

而今企業在進行系統架構設計選型時,需要從具體的分析場景出發,單一的模式已經無法滿足企業發展的業務訴求,集中表現在以下兩個痛點:

  • 數據湖主要以離線批量計算為主,因為不支持數據倉庫的數據管理能力,難以提高數據質量;數據入湖時效差不支持實時更新,數據無法強一緻性;主題建模不友好,無法直接曆史拉鍊建模;同時交互分析通常将數據搬遷到數據倉庫平台,造成分析鍊路長,數據冗餘存儲;批&流等場景融合不夠,無法滿足企業的海量數據處理訴求。
  • 數據倉庫滿足不了非結構化數據的分析需求,性價比不高;同時倉&湖間難以互聯互通,數據協同效率較低,無法支持跨平台透明訪問,形成了事實上的數據孤島,找數困難;缺乏全局數據視圖,不同平台接口差異和不同開發管理工具,造成用戶開發使用複雜,數據分别管理維護代價高體驗差。

數據湖和數據倉庫在企業數據分析場景分别承擔一湖一倉的重要角色,形成了完整的數據分析生态系統,上述企業場景面臨的2個關鍵痛點也在驅動數據湖和數據倉庫在技術演進上走向融合。

下一代演進方向:倉湖一體

大數據與商務分析是什麼(什麼是倉湖一體架構)2

現在許多公司往往會同時搭建數倉、數據湖這兩種存儲架構,如一個大的數倉和多個小的數據湖,但這樣數據在這兩種存儲中就會有一定的冗餘。而“倉湖一體”這一概念的出現試圖去融合數倉和數據湖這兩者之間的差異,通過将數倉構建在數據湖上,使得存儲變得更為廉價和具有彈性,同時能有效地提升數據質量,減小數據冗餘。

可以說,倉湖一體是一種結合了數據湖和數據倉庫優勢的新範式,解決了數據湖的局限性。其最重要的一點,是實現"湖裡"和"倉裡"的數據、元數據能夠無縫打通,并且“自由”流動。倉湖一體使用新的系統設計:直接在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。

有人把“倉湖一體”做了形象的比喻,就好像湖邊搭建了很多小房子,有的可以負責數據分析,有的來運轉機器學習,有的來檢索音視頻等等,而這些數據源流,都可以從數據湖裡輕松取得

大數據與商務分析是什麼(什麼是倉湖一體架構)3

倉湖一體具有以下特點:

統一的數據管理:倉湖一體提供完善的數據管理能力。數據湖中會存在兩類數據:原始數據和處理後的數據。數據湖中的數據會不斷地積累、演化,因此包含以下數據管理能力:數據源、數據連接、數據格式、數據schema(庫/表/列/行)。同時,數據湖是單個企業中統一的數據存放場所,因此,還具有一定的權限管理能力。

多模态的存儲引擎: 倉湖一體本身内置多模态的存儲引擎,以滿足不同的應用對于數據訪問需求(綜合考慮響應時間/并發/訪問頻次/成本等因素)。但是,在實際的使用過程中,為了達到可接受的性價比,倉湖一體解決方案提供可插拔式存儲框架,支持的類型有HDFS/S3等, 并且在必要時還可以與外置存儲引擎協同工作,滿足多樣化的應用需求。

豐富的計算引擎:提供從批處理、流式計算、交互式分析到機器學習等各類計算引擎。一般情況下,數據的加載、轉換、處理會使用批處理計算引擎;需要實時計算的部分,會使用流式計算引擎;對于一些探索式的分析場景,可能又需要引入交互式分析引擎。因此,倉湖一體解決方案提供計算引擎的可擴展/可插拔。

數據全生命周期管理:倉湖一體提供一個企業中全量數據的存儲場所,需要對數據的全生命周期進行管理,包括數據的定義、接入、存儲、處理、分析、應用的全過程。一個強大的數據湖實現,需要能做到對其間的任意一條數據的接入、存儲、處理、消費過程是可追溯的,能夠清楚的重現數據完整的産生過程和流動過程。

億信華辰倉湖一體解決方案

億信華辰結合多年的BI和數倉實施經驗,綜合傳統數據倉庫和現代數據湖兩種技術特點,推出了倉湖一體解決方案。該建設方案涵蓋數據存儲、數據集成、數據交換、數據共享等多個方面,綜合數據湖、數據倉庫兩種技術演進方向,為企業用戶提供雲原生倉湖一體解決方案,構建企業數字化新基座。

大數據與商務分析是什麼(什麼是倉湖一體架構)4

△技術架構

大數據與商務分析是什麼(什麼是倉湖一體架構)5

△應用架構

  • 采集層:從數據源接入數據後,倉湖一體平台支持oracle/sqlserver/mysql等主流RDBMS遷庫,進行跨平台的文件實時交換,以及實時捕獲各類應用系統日志内容的變化。同時支持基于業務數據庫日志的增量同步,完成IOT實時采集;
  • 存儲層:平台支持HDFS文件存儲和S3/OSS對象存儲,支持結構化/時序/文檔/圖像數據存儲,可按需冷熱分級存儲,數據在湖和倉之間可自由流動;
  • 計算層:内置Hive/Spark/Flink/Impala引擎,為數據集成和開發提供多種計算環境,可按需自由選擇;
  • 服務層:提供存儲、查詢、訪問、共享、開發等數據服務功能和通用接口,第三方應用可無縫對接。

億信華辰倉湖一體數據中心定位于為企業提供易于部署、開發、運維的數據底座平台,平台提供的能力包括:數據的統一分類存儲,數據采集加工的流程自動化,可視化的數據開發,提供多樣化的數據共享訪問标準接口等等。建設内容包括數據采集、數據處理、數據建模、數據交換四大方面。

大數據與商務分析是什麼(什麼是倉湖一體架構)6

△建設内容

方案優勢

01批流一體

提供批&流、交互分析、機器學習等多種計算引擎,一份數據可同時應用于各類分析場景,湖&倉數據協同計算,數據免搬遷

02混合存儲

内置多模态、多級混合存儲引擎,支持HDFS/S3/OSS存儲系統的可插拔式管理,結構化/非結構化數據可在湖&倉中統一存儲,滿足集中式管理和可擴展的雙向需求

03快速集成

支持數據以批/流/實時等多種方式接入,基于“批&流” 雙計算引擎的數據交換,從傳統數據遷移到工業物聯設備、日志、事件流實時捕獲,多源異構數據皆可高效入湖

04敏捷開發

提供可視化數據開發平台,豐富的輸入、輸出、加工、清洗、轉換等開發組件,自動化的作業調度和運維監控,支持多人在線協同開發,幫助用戶快速實現湖倉集成

大數據與商務分析是什麼(什麼是倉湖一體架構)7

△核心功能展示

大數據與商務分析是什麼(什麼是倉湖一體架構)8

△核心功能展示

從發展趨勢來看,倉湖一體必将在數字經濟建設中發揮非常重要的作用。億信華辰将基于客戶需求和技術演進趨勢持續創新,為企業客戶提供倉湖一體解決方案,緻力于構建企業數據資源共享池,讓企業業務的創新更敏捷,業務洞察更準确,加速釋放數據價值。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved