大數據技術含義-tft每日頭條

大數據技術含義

科技更新时间:2026-07-26 15:29:13

大數據技術含義?編輯導語：相信大家平時用大數據處理産品時，會被各種的專業技術名詞繞暈，然後傻傻分不清本篇文章中，作者将大數據中常用的一些技術名詞作了彙總和分類感興趣的小夥伴不妨來看看，說不定會用到哦，我來為大家科普一下關于大數據技術含義?以下内容希望對你有幫助!

大數據技術含義

編輯導語：相信大家平時用大數據處理産品時，會被各種的專業技術名詞繞暈，然後傻傻分不清。本篇文章中，作者将大數據中常用的一些技術名詞作了彙總和分類。感興趣的小夥伴不妨來看看，說不定會用到哦。

在大數據處理産品中經常會碰到一些技術名詞，在這裡彙總整理。

一、數據源類型

1. 寬表 VS 窄表

寬表：指字段比較多的數據庫表。通常是指業務主體相關的指标、緯度、屬性關聯在一起的一張數據庫表。

廣泛應用于數據挖掘模型訓練前的數據準備，通過把相關字段放在同一張表中，可以大大提供數據挖掘模型訓練過程中叠代計算的消息問題。

雖然提高了數據查詢效率，但存在大量冗餘。

窄表：嚴格按照數據庫設計三範式。減少了數據冗餘，但修改一個數據可能需要修改多張表。

數據庫設計三範式：

确保每列保持原子性；

确保表中的每列都和主鍵相關；

确保每列都和主鍵列直接相關，而不是間接相關。

2. MySQL

MySQL是一種關系型數據庫管理系統，關系數據庫将數據保存在不同的表中，而不是将所有數據放在一個大倉庫内，這樣就增加了速度并提高了靈活性。是目前最流行的關系型數據庫管理系統之一。

3. Oracle

Oracle是一款關系數據庫管理系統。它是在數據庫領域一直處于領先地位的産品，系統可移植性好、使用方便、功能強，适用于各類大、中、小微機環境。

它是一種高效率的、可靠性好的、适應高吞吐量的數據庫方案。

4. GBase

GBase 是南大通用數據技術有限公司推出的自主品牌的數據庫産品，在國内數據庫市場具有較高的品牌知名度。

5. HBase

HBase是一個分布式的、面向列的開源數據庫。

不同于一般的關系數據庫，它是一個适合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。

6. FTP

FTP（File Transfer Protocol）是一套網絡文件傳輸标準協議，訪問遠程資源，實現用戶往返傳輸文件、目錄管理以及訪問電子郵件等等，即使雙方計算機可能配有不同的操作系統和文件存儲方式。

7. HDFS

HDFS是一個Hadoop分布式文件系統，HDFS有着高容錯性的特點，并且設計用來部署在低廉的硬件上。

而且它提供高吞吐量來訪問應用程序的數據，适合那些有着超大數據集的應用程序。

二、數據計算

1. MaxCompute

MaxCompute是一項大數據計算服務，它能提供快速、完全托管的PB級數據倉庫解決方案，可以經濟并高效的分析處理海量數據。

2. Flink

Flink是一個框架和分布式處理引擎，用于對無界和有界數據流進行有狀态計算。

Flink設計為在所有常見的集群環境中運行，以内存速度和任何規模執行計算。

3. Kafka

Kafka是一種高吞吐量的分布式發布訂閱消息系統，它可以處理消費者在網站中的所有動作流數據。

4. 離線計算 VS 實時計算

離線計算：通常也稱為“批處理”，表示那些離線批量、延時較高的靜态數據處理過程。

離線計算适用于實時性要求不高的場景，比如離線報表、數據分析等。常見計算框架：MapReduce，Spark SQL

實時計算：通常也稱為“實時流計算”、“流式計算”，表示那些實時或者低延時的流數據處理過程。

實時計算通常應用在實時性要求高的場景，比如實時ETL、實時監控等。常見計算框架：Spark Streaming，Flink

5. OLTP VS OLAP

OLTP（On-Line Transaction Processing）：可稱為在線事務處理，一般應用于在線業務交易系統，比如銀行交易、訂單交易等。

OLTP的主要特點是能夠支持頻繁的在線操作（增删改），以及快速的訪問查詢。

OLAP（On-Line Analytical Processing）：可稱為在線分析處理，較多的應用在數據倉庫領域，支持複雜查詢的數據分析，側重于為業務提供決策支持。

目前常見是的實時OLAP場景，比如Druid（Apache Druid，不同于阿裡Druid）、ClickHouse等存儲組件能夠較好的滿足需求。

三、分布式相關

1. Hadoop

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力進行高速運算和存儲。

2. HDFS

HDFS是一個Hadoop分布式文件系統。詳情在上一小節中已介紹。

3. hive

Hive是基于Hadoop的一個數據倉庫工具，用來進行數據提取、轉化、加載。

這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。

hive數據倉庫工具能将結構化的數據文件映射為一張數據庫表，并提供SQL查詢功能，能将SQL語句轉變成MapReduce任務來執行。

4. MapReduce

MapReduce是一種編程模型，用于大規模數據集（大于1TB）的并行運算。

概念”Map（映射）”和”Reduce（歸約）”，是它們的主要思想，都是從函數式編程語言裡借來的，還有從矢量編程語言裡借來的特性。

它極大地方便了編程人員在不會分布式并行編程的情況下，将自己的程序運行在分布式系統上。

5. Spark

Spark是專為大規模數據處理而設計的快速通用的計算引擎，類似于Hadoop MapReduce的通用并行框架，擁有Hadoop MapReduce所具有的優點；

但不同于MapReduce的是——Job中間輸出結果可以保存在内存中，從而不再需要讀寫HDFS，因此Spark能更好地适用于數據挖掘與機器學習等需要叠代的MapReduce的算法。

四、數據倉庫

1. 簡介

數據倉庫（全稱：Data Warehouse；簡稱：DW/DWH），是在數據庫已經大量存在的情況下，為了進一步挖掘數據資源、為了決策需要而産生的。

它是一整套包括了ETL（extract-transform-load）、調度、建模在内的完整的理論體系。

2. 與數據庫的差異

數據倉庫是專門為數據分析設計的，涉及讀取大量數據以了解數據之間的關系和趨勢。而數據庫是用于捕獲和存儲數據。

3. 分層

ODS（Operation Data Store）：數據源頭層，數據倉庫源頭系統的數據表通常會原封不動的存儲一份，這稱為ODS層（可理解為原始庫），是後續數據倉庫加工數據的來源。數據來源：業務庫、埋點日志、消息隊列。

DWD（Data Warehouse Details ）：數據細節層，是業務層與數據倉庫的隔離層。主要對ODS數據層做一些數據清洗和規範化的操作。數據清洗：去除空值、髒數據、超過極限範圍的。

DWB（Data Warehouse Base）：數據基礎層，存儲的是客觀數據，一般用作中間層，可以認為是大量指标的數據層，可理解為知識庫字典、常用标準庫。

DWS（Data Warehouse Service）：數據服務層，基于DWB上的基礎數據，整合彙總成分析某一個主題域的服務數據層，一般是寬表。用于提供後續的業務查詢，OLAP分析，數據分發等。

ADS（ApplicationData Service）：應用數據服務，該層主要是提供數據産品和數據分析使用的數據，一般會存儲在ES、mysql等系統中供線上系統使用。

4. 數據地圖

以數據搜索為基礎，提供表使用說明、數據類目、數據血緣、字段血緣等工具，幫助數據表的使用者和擁有者更好地管理數據、協作開發。

5. 數據血緣

即數據的來龍去脈，主要包含數據的來源、數據的加工方式、映射關系以及數據出口。

數據血緣屬于元數據的一部分，清晰的數據血緣是數據平台維持穩定的基礎，更有利于數據變更影響分析以及數據問題排查。

本文由@丸子不愛吃丸子原創發布于人人都是産品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協議

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技手機要買哪些配置
計算機老師是怎麼買手機的，接下來給大家分享一下我買手機的一些技巧：1、分析自己的需求。我不打遊戲，隻是做一些日常的辦公，因此不需要太高的手機性能，正常的骁龍750或者是天玑800左右的處理器就夠用的了。作為男生，我也不喜歡自拍和拍照，因此對... 2022-12-03
科技在哪兒買筆記本合适
“聯想貼吧”原創作品展示——轉發請标明出處和作者。————————————————————前面幾期文章我給大家提供了挑選機器的注意事項，以及根據不同系列、價格選擇滿足自己需求的筆記本電腦。怎麼樣，大家選擇好了自己中意型号的筆記本了嗎？如果選... 2022-12-05
科技美國衆議院批準反壟斷相關報告
美國衆議院批準反壟斷相關報告?讓美國科技巨頭極為忌憚的重磅反壟斷法案又向獲得國會通過邁進了一步，下面我們就來說一說關于美國衆議院批準反壟斷相關報告?我們一起去了解并探讨一下這個問題吧!美國衆議院批準反壟斷相關報告讓美國科技巨頭極為忌憚的重磅... 2023-01-20
科技戴爾電腦售後維修服務中心免費
杭州戴爾DELL電腦官方實體旗艦店（總店）及售後維修；位于杭州市上城區新業路228号來福士商場5樓22号。戴爾筆記本、台式機、一體機、工作站、戴爾周邊配件等。這是一家以官方門店為主題的店鋪，這裡的服務與産品還是值得我們信任；同價、同産品、切... 2023-02-23
科技電腦重裝系統一直重新啟動的原因
電腦重裝系統一直重新啟動的原因?電腦重裝系統一直重新啟動的原因是：，我來為大家科普一下關于電腦重裝系統一直重新啟動的原因?下面希望有你要的答案，我們一起來看看吧!電腦重裝系統一直重新啟動的原因電腦重裝系統一直重新啟動的原因是：在用U盤重裝系... 2022-05-31
科技三角形中線和角平分線的位置關系
三角形的高線、中線、角平分線、内外角和等應用剖析一、三角形的高1.三角形的高定義：從三角形的一個頂點向它的對邊所在直線作垂線，頂點和垂足之間的線段叫做三角形這邊上的高，簡稱三角形的高。如圖，線段AD是BC邊上的高。注意：高與垂線不同，高是線... 2022-11-19
科技諾基亞2660翻蓋手機有啥功能
諾基亞2660翻蓋手機有啥功能?翻蓋手機在特定的時期，是成功人士的标配，代表性機型，三星的天鑒系列随着大屏智能手機的到來，它們也就慢慢地淡出了曆史舞台，但是并沒有消失，除了山寨機，還有曾經的手機市場老大哥，一直在發布此類機型，最近它有帶來了... 2022-10-16
科技手機上如何編輯文檔
手機上如何編輯文檔?下載WPSOffice軟件，打開WPS軟件，新建一個Word文檔，接下來我們就來聊聊關于手機上如何編輯文檔?以下内容大家不妨參考一二希望能幫到您!手機上如何編輯文檔下載WPSOffice軟件，打開WPS軟件，新建一個Wo... 2022-06-02
科技電腦安裝軟件方法
電腦安裝軟件方法?找到或下載你要安裝的那個軟件的安裝包，下面我們就來說一說關于電腦安裝軟件方法?我們一起去了解并探讨一下這個問題吧!電腦安裝軟件方法找到或下載你要安裝的那個軟件的安裝包。雙擊點開，解壓。為了方便，我們解壓到桌面。打開文件夾，... 2022-06-04
科技 windows10系統共享文件
很多升級了win10系統，但是在win10文件共享權限設置出現了問題，就是不知道如何設置，也不知道win10文件夾共享的功能在哪裡找到，針對網友們遇到這樣的問題，小編淡定告訴你們win10文件共享權限設置方法，這種方法簡單易懂，保證你們能學... 2022-11-19
科技 arpg端遊排行榜
快節奏戰鬥，SFC風格的流暢畫面，讓人欲罷不能的謎題，再加上引入入勝的劇情，這就是《遠星物語》。《遠星物語》（CrossCode）由德國獨立工作室RadicalFishGames開發，作為一款複古風格的2DARPG，遊戲講述了一個單機版的M... 2022-10-26
科技 qq出了已讀消息這個功能
了解更多熱門資訊、玩機技巧、數碼評測、科普深扒，點擊右上角關注我們-----------------------------不得不說，正是微信和QQ這兩款聊天産品，共同支撐起騰訊龐大的社交帝國。有趣的是，和很多人當初設想的不一樣，盡管微信在... 2022-11-08
科技電腦c盤滿了怎麼清理win7
電腦c盤滿了怎麼清理win7?雙擊計算機圖标，右鍵C盤圖标——“屬性”，今天小編就來說說關于電腦c盤滿了怎麼清理win7?下面更多詳細答案一起來看看吧!電腦c盤滿了怎麼清理win7雙擊計算機圖标，右鍵C盤圖标——“屬性”。點擊“工具”——“... 2022-06-08
科技柴犬miui設置
闆栗狗伴你走闆栗狗作為寵店助手，為了讓每個寵店主在門店經營上更加方便、快捷，每隔一段時間就會根據寵店主們的使用情況和反饋對闆栗狗的系統進行功能升級。讓我們一起來看看這次闆栗狗系統功能更新詳情吧~營銷工具新增滿減、買贈、套餐促銷在營銷工具裡新... 2022-12-21
科技領導辦公室整理文件
要說在機關單位工作，大家最常接觸的可能就是各類文件了。尤其是在當前信息技術的影響下，辦公越來越倡導無紙化、電子化，很多文件都存儲在計算機裡，從内容和形式上給文件管理工作帶來了便利，但也帶來了一些安全方面的挑戰。特别是機關單位有些需要控制知悉... 2022-12-04
科技茶葉電商的現狀
據東北證券統計資料，2019年中國網上商品和服務零售總額為106320億元，阿裡1家成交金額占到總額的6成左右。想了解茶葉電商銷售數據，就不能忽略淘系電商平台（指淘寶C店、天貓商城、天貓國際和全球購）。過去6個月（2019年11月—2020... 2022-11-27
科技使用辦公軟件小技巧
使用辦公軟件小技巧?提高撤銷步數Office默認的撤銷步數隻有20步、有時候我們撤銷很多次的時候，20步是明顯不夠用的，我們可以增加撤銷步數，最多撤銷步驟為150步，我來為大家講解一下關于使用辦公軟件小技巧?跟着小編一起來看一看吧!使用辦公... 2022-07-13
科技我還記得曾經擁有
看着現在滿大街的iPhone、小米、三星，你還記得那個曾經輝煌的諾基亞嗎？沒錯了，今天小編就要為大家帶來一個消息！2016年，我們所熟悉的"機皇"——諾基亞就要強勢回歸啦！那麼問題就來了，你還記得以前所用過的手機嗎？小編列了一下，這些曾經最... 2022-11-08
科技平闆電腦和筆記本電腦一樣好用嗎
平闆電腦和筆記本電腦一樣好用嗎?如今，平闆電腦已受到越來越多人的青睐我相信已經有很多人開始使用平闆電腦，但是仍然有許多朋友應該在平闆電腦和筆記本電腦之間進行選擇？那你平闆電腦和筆記本電腦有什麼區别？，今天小編就來說說關于平闆電腦和筆記本電腦... 2022-10-06
科技微信視頻聊天攝像頭打不開怎麼辦
微信視頻聊天攝像頭打不開怎麼辦?可以手機系統修改權限就可以了；，我來為大家科普一下關于微信視頻聊天攝像頭打不開怎麼辦?以下内容希望對你有幫助!微信視頻聊天攝像頭打不開怎麼辦可以手機系統修改權限就可以了；修改步驟：打開設置，點擊“應用和管理”... 2022-07-18
科技 360壓縮包解壓錯誤
環境：Win10專業版360壓縮4.0.0.1280問題描述：360壓縮包解壓文件名亂碼解決方案：1.更改壓縮包語言-簡體中文，解決, 2022-11-07
科技 windows11升級了為什麼是專業...
Windows11發布對于不少Windows忠實用戶來說是一件值得歡呼的事情。可正當人們紛紛喊出Amazing時，現實卻給了他們一記迎頭痛擊——「你的電腦無法運行Windows11」。雖然Windows11是支持免費升級，但其實并非所有Wi... 2022-11-07
科技 win7系統快速關機
win7系統快速關機?Win7系統用戶在電腦系統使用率占比是最高的，在使用win7時，很多用戶表示在系統使用久了之後，電腦在使用完後關機速度很慢，還有卡頓現象今天，小編就教你們win7系統快速關機，節約你的時間，我來為大家科普一下關于win... 2022-10-13
科技華為手機語音助手叫什麼
華為手機語音助手叫什麼?打開華為手機上的【設置】然後下拉找到【智慧助手】，我來為大家科普一下關于華為手機語音助手叫什麼?下面希望有你要的答案，我們一起來看看吧!華為手機語音助手叫什麼打開華為手機上的【設置】。然後下拉找到【智慧助手】。接着在... 2022-06-18
科技信用卡怎麼用手機提現
信用卡怎麼用手機提現?手機銀行app提現持卡人可以下載發卡銀行手機銀行app，登錄個人賬戶，将信用卡相關信息綁定到儲蓄卡上，再從信用卡中提取現金到儲蓄卡中，現在小編就來說說關于信用卡怎麼用手機提現?下面内容希望能幫助到你，我們來一起看看吧!... 2022-07-25
科技 ppt轉word免費軟件
相信各位小夥伴，平時都會遇到文件格式轉換的問題，但是如何快速免費地進行轉換，你會嗎？接下來小編就給各位同學介紹一系列免費的方法，希望可以幫到你哦！一、PPT格式轉換1、另存為首先我們直接打開PPT，然後選擇【文件】裡面的【另存為】功能，就可... 2022-11-25
科技 vivo手機釘釘為什麼沒有提示音
vivo手機釘釘為什麼沒有提示音?釘釘軟件在vivo手機上不能正常接收信息的原因:不兼容或者系統問題,權限問題釘釘軟件在vivo手機上不能正常接收信息的解決方法:卸載了重新安裝安裝步驟:打開手機應用商城-搜索釘釘-點擊下載-安裝關機重啟長按... 2022-06-04
科技蘋果手機聲音怎麼調更小
數碼新資訊？互聯新事件？手機快測評？二十年專業老司機，等你上車，點擊右上角關注泡泡網頭條号即可盡管蘋果手機的售價一年比一年高，但這并不妨礙果粉們對iPhone的熱情。與其說喜歡iPhone，更确切的說他們喜歡的是iOS系統。就算是強如iPh... 2022-11-05
科技 ios15.3.1可以完美越獄嗎
越獄這個詞，相信對蘋果用戶來說，是熟悉又陌生的。（圖片源自網絡）對設備有更多操作需求的用戶可能會選擇越獄，即開放用戶的操作權限，獲得系統最高權限，使可以随意擦寫任何區域的運行狀态，隻有越獄成功後iPhone的文件系統才處于可讀寫狀态。而近日... 2022-12-21
科技 iphone手機越獄的好處
小編認為iPhone逃獄之後的利益是，你擁有了改動體系的權限，隻需你具有響應的常識，你就能夠夠改動任何體系外部的器械。在美國，逃獄是正當的，因為用戶有權控制自己的手機，裝置未經Apple審核過的應用。然則前提是你正當地應用這些軟件，而不是應... 2022-12-21

tft每日頭條

> 科技

> 大數據技術含義

大數據技術含義

大數據技術含義

1. 寬表 VS 窄表

2. MySQL

3. Oracle

4. GBase

5. HBase

6. FTP

7. HDFS

1. MaxCompute

2. Flink

3. Kafka

4. 離線計算 VS 實時計算

5. OLTP VS OLAP

1. Hadoop

2. HDFS

3. hive

4. MapReduce

5. Spark

1. 簡介

2. 與數據庫的差異

3. 分層

4. 數據地圖

5. 數據血緣

相关科技资讯推荐

热门科技资讯推荐

网友关注