信息革命始于數據之争,大數據的黃金時代已來。
當數據汪洋恣意流經千行百業,大數據技術與實體經濟緊密融合,我們可以看到,運營商話單數據正在輔助應急救災、規避電信詐騙;交通視頻場景依靠車輛軌迹的識别處理,逐漸取締人工收費、提升通行效率;金融業務正在挖掘交易日志提供精準營銷、智慧風控,讓互聯網金融遍地開花。
圍繞數據,大數據的架構并非一成不變。大數據軟件正在向雲、開源、SaaS業務模型靠攏,現代商業智能、多模式數據處理、人工智能和機器學習等技術正不斷叠代更新。對于企業而言,如何選擇正确的技術架構,是一場眺望未來的複雜命題。
在由ODCC(Open Data Center Committee)開放數據中心委員會主辦的2022開放數據中心峰會上,中國移動聯合中國信通院、華為存儲等機構和産業夥伴,共同發布《大數據湖倉一體技術規範》,首次定義了大數據湖倉一體技術架構的關鍵組成要素,提出了對統一存儲、統一元數據、統一計算、統一服務、運維管理、安全管理、平滑演進等關鍵能力的規範要求,為大數據産業鍊企業升級建設數據基礎設施提供了系統性的指導與參考。
2022開放數據中心峰會上發布《大數據湖倉一體技術規範》
大數據處理的過程是一個改善數據關聯性與整合數據密度的過程。随智能時代的演進,由于數據規模、數據類型的差異,衍生出用于存儲規範穩定的結構化數據的數據倉庫(MPP數據庫),與用于存儲全量原始數據的數據湖(Hadoop)。二者各有優劣:數據倉庫可以快速調用但将喪失部分原始信息價值,而數據湖易于進行後期靈活挖掘但一旦未治理好便會形成數據沼澤。那麼,是否能有一種新的架構,能夠兼具二者的優勢呢?
于是,湖倉一體架構誕生了。通過融合數據湖與數據倉庫的優勢,實現二者内數據的無縫聯通流動,大幅縮減數據冗餘與搬遷,避免了割裂系統産生的數據孤島。它采用存算分離的結構,提供統一開放的存儲接口,對接多樣的計算引擎,通過資源彈性伸縮、靈活規劃與部署,在提升企業大數據分析效率的同時有效簡化了企業數據基礎設施架構。
本次在開放數據中心峰會上發布的《大數據湖倉一體技術規範》,便是對構建這個完整有機的大數據技術生态體系的重要指導,标志着企業大數據棧的構建進入下一紀元。湖倉一體的技術架構如下圖所示:
該架構可以很好地克服數據重力,讓數據倉庫中的熱數據與數據湖中的曆史數據足以高速處理與流動。湖倉一體技術架構由以下七部分組成:
面向業務訴求,為原始數據、中間數據、業務數據、歸檔數據提供高可靠、高擴展的存儲空間和數據管理能力,支持存儲兼具數據湖與數據倉庫的多種數據格式,在讀寫上實現熱點數據高吞吐低時延、溫冷數據大容量低成本的特質。通過通用的數據組織格式,如Hudi、Iceberg、DeltLake等,實現數據的統一存儲訪問。
通過采集、适配、拉通與管理數據湖與數據倉庫中的元數據,構建統一元數據目錄和數據視圖,真正實現數據湖與數據倉庫數據共享,提供湖倉一體化的元數據服務。
集成批處理引擎、流處理引擎、交互式查詢引擎、交互式分析引擎、機器學習引擎等通用數據處理引擎,覆蓋數據處理全場景,通過統一元數據管理,實現與統一的存儲的無縫對接。
為上層業務提供一體化的數據服務體驗,無需關注底層異構環境,為數據開發者、數據使用者、數據運營管理者提供統湖倉一體化服務能力。
滿足多樣化運維需求,支撐平台管理員、各類運維人員或使用者及時發現、定位并處理問題,提高運維效率。
依據三法一條例,構建全面的安全保護解決方案,從系統層安全、數據層安全、應用層安全構築完整的安全管理能力。
基于數據湖與數據倉庫現有能力,對标湖倉一體的架構進行補充與完善,實現向湖倉一體架構的平滑演進。
ODCC開放數據中心委員會始終秉承“開放、創新、合作、共赢”的理念,在時代的浪花裡懷揣羅盤,勇作數據中心産業的引渡人。《大數據湖倉一體技術規範》的發布,将有效指導企業落地新型基礎設施的架構設計與系統建設,打造豐富多樣的大數據生态圈,以科技風向的及時雨,灌溉滋養全産業鍊的土壤。一派生機盎然間,企業大數據時代的燈塔已被點亮。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!