tft每日頭條

 > 科技

 > 簡述數據庫與數據倉庫的需求分析

簡述數據庫與數據倉庫的需求分析

科技 更新时间:2024-12-05 08:21:41

簡述數據庫與數據倉庫的需求分析?data warehouse(可簡寫為DW或者DWH)數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而産生的,它是一整套包括了etl、調度、建模在内的完整的理論體系數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,主要應用于OLAP(on-line Analytical Processing),支持複雜的分析操作,側重決策支持,聽且提供直觀易懂的查詢結果比較流行的有:AWS Redshift,Greenplum,Hive等,現在小編就來說說關于簡述數據庫與數據倉庫的需求分析?下面内容希望能幫助到你,我們來一起看看吧!

簡述數據庫與數據倉庫的需求分析(數據倉庫分層中的ODS)1

簡述數據庫與數據倉庫的需求分析

1.數據倉庫DW1.1簡介

data warehouse(可簡寫為DW或者DWH)數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而産生的,它是一整套包括了etl、調度、建模在内的完整的理論體系。數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,主要應用于OLAP(on-line Analytical Processing),支持複雜的分析操作,側重決策支持,聽且提供直觀易懂的查詢結果。比較流行的有:AWS Redshift,Greenplum,Hive等。

1.2主要特點
  • 面向主題: 操作型數據庫組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。 主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通過與多個操作型信息系統相關
  • 集成
    • 需要對源數據進行加工與融合,統一與綜合
    • 在加工的過程中必須消除源數據的不一緻性,以保證數據倉庫内的信息時關于整個企業的一緻的全局信息。(關聯關系)
  • 不可修改
    • DW中的數據并不是最新的,而是來源于其他數據源
    • 數據倉庫主要是為決策分析提供數據,涉及的操作主要是數據的查詢
  • 與時間相關
    • 處于決策的需要數據倉庫中的數據都需要标明時間屬性
1.3與數據庫的對比
  • DW:專門為數據分析設計的,涉及讀取大量數據以了解數據之間的關系和趨勢
  • 數據庫:用于捕獲和存儲數據

特性

數據倉庫

事務數據庫

适合的工作負載

分析、報告、大數據

事務處理

數據源

從多個來源收集和标準化的數據

從單個來源(例如事務系統)捕獲的數據

數據捕獲

批量寫入操作通過按照預定的批處理計劃執行

針對連續寫入操作進行了優化,因為新數據能夠最大程度地提高事務吞吐量

數據标準化

非标準化Schema,例如星型Schema或雪花型schema

高度标準化的靜态schema

數據存儲

使用列式存儲進行了優化,可實現輕松訪問和高速查詢性能

針對在單行型物理塊中執行高吞吐量寫入操作進行了優化

數據訪問

為最小化I/O并最大化數據吞吐量進行了優化

大量小型讀取操作

2.數據分層

數據分層,每個企業根據自己的業務需求可以分成不同的層次,但是最基礎的分層思想,理論上數據分為三個層:數據運營層、數據倉庫層、數據服務層。基于這個基礎分層之上,再提交信息的層次,來滿足不同的業務需求。

2.1數據運營層(ODS)
  • ODS:Operation Data Store 數據準備區,也稱為貼源層。數據倉庫源頭系統的數據表通常會原封不動的存儲一份,這稱為ODS層,是後續數據倉庫加工數據的來源。
  • ODS層數據的來源方式:
    • 業務庫
      • 經常會使用sqoop來抽取,例如每天定時抽取一次。
      • 實時方面,可以考慮用canal監聽mysql的binlog,實時接入即可。
    • 埋點日志
      • 日志一般以文件的形式保存,可以選擇用flume定時同步
      • 可以用spark streaming或者Flink來實時接入
      • Kafka也OK
    • 消息隊列:即來自ActiveMQ、Kafka的數據等。
2.2數據倉庫層(DW)

DW數據分層,由下到上為DWD,DWB,DWS。

  • DWD:data warehouse details 細節數據層,是業務層與數據倉庫的隔離層。主要對ODS數據層做一些數據清洗和規範化的操作。 數據清洗:去除空值、髒數據、超過極限範圍的
  • DWB:data warehouse base 數據基礎層,存儲的是客觀數據,一般用作中間層,可以認為是大量指标的數據層。
  • DWS:data warehouse service 數據服務層,基于DWB上的基礎數據,整合彙總成分析某一個主題域的服務數據層,一般是寬表。用于提供後續的業務查詢,OLAP分析,數據分發等。
    • 用戶行為,輕度聚合
    • 主要對ODS/DWD層數據做一些輕度的彙總。
2.3數據服務層/應用層(ADS)
  • ADS:applicationData Service應用數據服務,該層主要是提供數據産品和數據分析使用的數據,一般會存儲在ES、mysql等系統中供線上系統使用。
    • 我們通過說的報表數據,或者說那種大寬表,一般就放在這裡
,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved