tft每日頭條

 > 科技

 > 數據倉庫和大數據倉庫區别

數據倉庫和大數據倉庫區别

科技 更新时间:2024-07-23 03:22:13

  在大數據系統平台當中,數據存儲、數據庫、數據倉庫是非常重要的概念,共同支持大數據存儲的實際需求。在大數據處理當中,大數據存儲這個環節,數據倉庫技術起到重要的作用。今天我們來對數據倉庫做一個簡單的介紹。

  數據倉庫和大數據倉庫區别(大數據概念解析之數據倉庫簡介)(1)

  什麼是數據倉庫? 數據倉庫,有一個被廣泛接受的定義:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映曆史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。

  具體來說,數據倉庫就是一個數據集合,它通常具備以下特性:

  數據倉庫是面向主題構建的,每個主題就是一個可直接用于分析的主體;數據倉庫的數據都是集成的,它的數據來源很豐富,為了分析方便,對多種數據做了集成;數據倉庫的數據是相對穩定的,不會出現短時間内頻繁更新數據倉庫中數據的情況;數據倉庫的數據都是已經發生的曆史事實,且保留時間較長,因此如果拉長時間線,是可以看到數據的曆史變化情況的;數據倉庫的目标就是支撐分析工作,用于管理決策,使得企業獲得更好的發展。 數據倉庫和大數據倉庫區别(大數據概念解析之數據倉庫簡介)(2)

  在企業的實際業務場景當中,數據倉庫的核心應用場景就是數據分析。數據倉庫就是面向分析構建的,數據倉庫的存在就是為了更加高效方便地支撐數據分析。

  數據倉庫的優勢是什麼? 1、完全面向分析構建。

  數據倉庫的目标就是為了更高效方便地做數據分析,因此數據倉庫整個數據的組織結構也是完全根據分析需要設計的。它是由多個面向特定方向的分析主題組成的,這樣可以使得分析任務變得簡單,數據更容易獲取,最大化地發揮數據的效用。

  2、可以處理大數據量場景。

  數據倉庫不需要太在意響應性能,因為它通常是用來供分析使用的,不會直接用于與用戶交互的場景。因此,可以存儲大量的曆史事實數據,完成跨度較大的曆史趨勢變化的分析。

  數據倉庫和大數據倉庫區别(大數據概念解析之數據倉庫簡介)(3)

  3、集成多種數據。

  數據倉庫中的數據,是将企業中分散的、不統一的數據,經過ETL集成到一起。這樣,可以提升數據的豐富性,多種數據的融合,能夠連接出新的可能性,發揮出更大的作用,分析出單個數據集無法得出的結論。

  Hadoop生态下的數據倉庫Hive 進入大數據時代之後,基于Hadoop基礎架構,Hive作為分布式數據倉庫被大家熟知。

  數據倉庫和大數據倉庫區别(大數據概念解析之數據倉庫簡介)(4)

  Hive構建于Apache Hadoop之上,滿足企業實際場景下的數據需求:

  通過SQL輕松訪問數據的工具,從而實現數據倉庫任務,如提取/轉換/加載(ETL),報告和數據分析;訪問直接存儲在Hadoop HDFS或其他數據存儲系統(如Apache HBase)中的文件;通過Apache Tez,Apache Spark或MapReduce執行查詢;通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。 今天的大數據概念解析,數據倉庫入門,以上就為大家做了簡單的介紹了。數據倉庫作為支持大數據分析處理的重要一環,也是大數據系統架構當中的重要組成部分,從基礎入門到逐步深入,需要不斷加深理解和掌握。

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved