tft每日頭條

 > 科技

 > 大數據數據庫關系數據庫

大數據數據庫關系數據庫

科技 更新时间:2025-01-31 16:58:40

數據分析與數據挖掘的區别是什麼

大數據數據庫關系數據庫(數據庫數據倉庫)1

大數據數據庫關系數據庫(數據庫數據倉庫)2

什麼是數據庫

一般而言,我們所說的數據庫指的是數據庫管理系統,是一款軟件。

傳統關系型數據庫事務設計原則ACID以下四點必須全部滿足:

原子性Atomicity:事務中操作要麼都發生,要麼都不發生;

一緻性Consistency:事務前後數據完整性保持一緻;

隔離性Isolation:多個用戶并發事務相互隔離;

持久性Durability:事務被提交後數據的改變就是永久性的。

根據數據存儲的方式不同,可以将數據庫分為三類:分别為行存儲列存儲行列混合存儲,其中行存儲的數據庫代表産品有Oracle、MySQL、PostgresSQL等;列存儲的數據代表産品有Greenplum、HBase、Teradata等;行列混合存儲的數據庫代表産品有TiDB,ADB for Mysql等。

大數據數據庫關系數據庫(數據庫數據倉庫)3

什麼是數據倉庫

數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映曆史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。

  • 面向主題的:根據使用者的需求,将來自不同數據源的數據圍繞着各種主題進行分類整合。
  • 集成的:來自各種數據源的數據按照統一的标準集成于數據倉庫中。
  • 相對穩定的:數據倉庫中的數據是一系列的曆史快照,不允許修改或删除,隻涉及數據查詢。
  • 反映曆史變化的 :數據倉庫會定期接收新的集成數據,從而反映出最新的數據變化。
數據庫與數據倉庫有什麼區别

數據倉庫不是一個産品。數據庫屬于一種産品。

那麼,數據倉庫該怎麼構建呢,目前使用Hive構建數據倉庫的比較多。總之一句話,數據倉庫涉及數據建模,數據抽取ETL,數據可視化等一系列的流程,是一種數據解決方案,通常需要多種技術進行組合使用。

數據倉庫的本質是OLAP,即是做在線分析處理,這是與數據庫的本質區别。

數據庫是為了解決OLTP而存在的,而數據倉庫是為了分析數據而存在的。

數據庫的數據是數據倉庫的數據源,即将數據庫的數據加載至數據倉庫,所以說,數據倉庫不生産數據,隻做數據的搬運工。

數據倉庫并不是必須的,但是對于一個業務系統而言,數據庫是必須的。隻有在業務穩定運轉的情況下,才會去構建企業級數據倉庫,通過數據分析,數據挖掘來輔助業務決策,實現錦上添花。

大數據數據庫關系數據庫(數據庫數據倉庫)4

什麼是數據集市

數據集市(Data Mart),就是滿足特定的部門或者用戶的需求。數據從數據倉庫中抽取出來的。

大數據數據庫關系數據庫(數據庫數據倉庫)5

大數據數據庫關系數據庫(數據庫數據倉庫)6

什麼是大數據平台

大數據平台是一個集數據接入、數據處理、數據存儲、查詢檢索、分析挖掘等、應用接口等功能為一體的平台。通俗的理解包括Hadoop生态的相關産品,比如Spark、Flink、Flume、Kafka、Hive、HBase等經典開源産品。

提到Hadoop生态技術,不得不提的是Apache和Cloudera。國内絕大部分公司的大數據平台都是基于這兩個分支的産品進行商業化包裝和改進。例如:阿裡雲EMR、騰訊TBDS、華為FusionInsight、新華三DataEngine、浪潮Insight HD、中興DAP等産品。

其實,對于大數據平台,業内并無一個固定的能力範圍。當前比較權威的是全國信标委今年發布了大數據平台的國标 《GB/T 38673-2020 信息技術 大數據 大數據系統基本要求》,将大數據系統劃分為數據收集、數據存儲、數據預處理、數據處理、數據分析、數據訪問、資源管理、系統管理8個部分,分别對各部分提出技術要求。所以會發現每個廠家推出的大數據平台都包含很多功能、甚至組合的産品,屬于大數據的産品種類非常多。

什麼是大數據開發平台

由于大數據技術很多,單獨使用的學習成本很高,為了提升數據開發的效率,也就出現了大數據開發平台。簡單講,數據開發平台就是集成了大數據平台的一個開發套件,比如阿裡雲的DataWorks就是一個代表,DataWorks(數據工場,原大數據開發套件)是阿裡雲重要的PaaS(Platform-as-a-Service)平台産品,提供數據集成、數據開發、數據地圖、數據質量和數據服務等全方位的産品服務,一站式開發管理的界面,幫助企業專注于數據價值的挖掘和探索。

大數據數據庫關系數據庫(數據庫數據倉庫)7

什麼是數據湖

數據湖是一個存儲企業的各種各樣原始數據的大型倉庫。

具備以下幾個特性

1、 數據湖需要提供足夠用的數據存儲能力,保存了一個企業/組織中的所有數據。

2、 數據湖可以存儲海量的任意類型的數據,包括結構化、半結構化和非結構化數據。

3、 數據湖中的數據是原始數據,是業務數據的完整副本。數據保持了他們在業務系統中原來的樣子。

4、 數據湖需要具備完善的數據管理能力,可以管理各類數據相關的要素,包括數據源、數據格式、連接信息、數據schema、權限管理等。

5、 數據湖需要具備多樣化的分析能力,包括但不限于批處理、流式計算、交互式分析以及機器學習;同時,還需要提供一定的任務調度和管理能力。

6、 數據湖需要具備完善的數據生命周期管理能力。不光需要存儲原始數據,還需要能夠保存各類分析處理的中間結果,并完整的記錄數據的分析處理過程,能幫助用戶完整詳細追溯任意一條數據的産生過程。

7、 數據湖需要具備完善的數據獲取和數據發布能力。數據湖需要能支撐各種各樣的數據源,并能從相關的數據源中獲取全量/增量數據;然後規範存儲。數據湖能将數據分析處理的結果推送到合适的存儲引擎中,滿足不同的應用訪問需求。

8、 對于大數據的支持,包括超大規模存儲以及可擴展的大規模數據處理能力。

數據倉庫與數據湖有什麼區别與聯系什麼是數據中台

數據中台不是一個産品,與業務強相關。通過數據技術,對海量數據進行采集、計算、存儲、加工,同時統一标準和口徑。數據中台把數據統一之後,會形成标準數據,再進行存儲,形成資産,進而為業務部門提供高效服務

數據倉庫與數據中台的區别與聯系

大數據數據庫關系數據庫(數據庫數據倉庫)8

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved