數據集成平台簡介-tft每日頭條

數據集成平台簡介

科技更新时间:2025-08-15 08:12:36

編輯導語：數據集成産品是數據中台建設的第一環節，在構建數據中台或大數據系統時，首先要将企業内部各個業務系統的數據實現互聯互通，從物理上打破數據孤島。本文作者對數據集成産品進行了分析，一起來看一下吧。

數據集成産品緻力于異構數據源之間的數據交換與彙聚，該類産品是數據中台建設的第一環節，筆者将通過兩篇文章對數據集成産品進行分析。

數據同步，又稱為數據集成、數據遷移，主要用于實現不同系統間的數據流轉。

為什麼會有數據同步這類産品？

在企業中，業務的快速發展産生了大量數據，也催生出多種應用系統，各系統承載不同類型的數據，對應着不同的數據存儲方式。

而對于構建數據中台或大數據系統，首先需要将企業内部各個業務系統的數據實現互聯互通，從物理上打破數據孤島，而這主要通過數據彙聚和同步的能力來實現。

數據同步方式有多種：API接口同步、數據文件同步和數據庫日志解析同步，适用于不同的業務場景。

本次分享的數據同步是基于數據庫日志解析的方式實現，其主要應用場景是：數據從業務系統同步到數倉，和數據從數倉同步到數據應用兩個方面。
一、數據集成産品簡介
1. 産品介紹

數據同步緻力于保證數據在不同數據源之間被高效準确地遷移。根據數據時效性要求和應用場景，數據同步可分為離線同步和實時同步：

1）離線同步

主要用于大批量數據的周期性遷移，對時效性要求不高，一般采用分布式批量數據同步方式，通過連接讀取數據，讀取數據過程中可以有全量、增量方式，經過統一處理後寫入目标存儲。

成熟的産品有：Sqoop、DataX、kettle等。

2）實時同步

針對數據時效性要求高的場景，其将源端數據的變化實時同步到目标端數據源中，保證源端數據與目标端數據實時保持一緻，就可滿足業務實時查詢分析使用數據或實時計算等需求。

成熟的産品有：Canal、otter等。

在實際業務場景中，離線同步和實時同步搭配使用，為保證已有的數據表在目标端數據源中可用，會使用離線同步将該表的曆史數據全量遷移到目标端數據源中，對于增量數據則通過實時集成來增量遷移。
2. 核心流程

數據集成的實現有三個關鍵步驟：數據讀取、數據轉換（映射）、數據寫入，核心流程如下圖所示：

具體流程為：數據集成從源端數據源中讀取數據，按照建好的映射關系及轉換規則，将數據寫入到目标數據源中。其中：
配置源端數據源和目标端數據源，用于連接數據源，獲取數據源的讀、寫權限等
建立映射關系：源端數據源中數據表及字段對應到目标端數據源中的哪張表和字段。建立映射關系後，數據集成根據映射關系，将源端數據寫入到對應的目标端數據
數據轉換規則：數據寫入時，可能有不同數據格式轉換，敏感數據脫敏展示、無用字段過濾、null值處理等需求，可以制定相應的數據轉換規則來實現
數據傳輸通道：可配置任務并發數、數據連接數等任務參數，達到數據集成的任務被高效穩定執行等目的

基于上述流程，數據集成産品的核心功能一般會包含以下4個：

數據集成平台在進行異構數據源之間的數據遷移時，需要保證遷移任務被高效完成，被遷入目标端數據源的數據是準确可靠的、實時的，數據傳輸過程是安全的等，這是用戶核心關注點，也是期望平台達到的目标。

3. 其他大數據産品的聯系和區别

在構建數據倉庫的場景中，數據加載到數倉後，随後進行數據加工和數據應用，其中涉及的3類大數據産品如下：

1）數據集成：面向數據彙聚與交換

産品流程：配置數據源—創建同步任務—配置調度任務。

核心任務：ETL、校驗、補數、合并。

2）數據加工：面向數據分析

産品流程：創建表—編寫加工邏輯（insert）—配置調度任務。

數據加工方式：離線計算、實時計算、機器學習等。

3）任務調度：工作流編排

産品流程：創建任務節點—配置節點依賴關系—提交并執行。

任務調度：任務執行、任務調度與運維。

數據集成和數據加工都是數據生命周期中的一環
數據集成任務和數據加工任務其實就是任務調度中的任務節點job，任務調度保證數據被順序采集和加工出來

以用戶畫像分析為例，oss_數據同步和rds_數據同步兩個節點是數據集成任務節點，ods_log_info_d、dws_user_info_all_d、rpy_user_info_d三個節點是數據加工任務節點，繪制各節點間的連線即工作流編排。

提交并執行畫布中的流程節點，數據就會按照箭頭方向執行各節點，産出最終結果。

區别：數據集成和數據加工都基于任務執行和調度實現，兩者雖然都是ETL，但是各自關注的重點并不相同。

①核心動作

數據集成核心動作是抽數（讀、寫、轉換），也就是數據交換，轉換動作也隻是簡單的數據清洗。

數據加工的核心動作是計算邏輯/清洗等加工規則的編寫，加工規則複雜。

②核心目标

數據集成的核心目标，是保證數據被高效準确地遷移到目标端數據源。

數據加工的核心目标，是加工規則編寫準确“翻譯”業務需求。
二、數據集成産品流程
離線集成與實時集成在實際運行中，關注的側重點是不同的，對于離線集成，面對的是批數據，更多考慮大規模數據量的遷移效率問題；對于實時集成，面對的是流數據，更多考慮數據準确性問題。

數據同步中一般采用先全量在增量的方式來進行數據的遷移，即先将曆史數據全量遷移到目标數據源，完成初始化動作，在進行增量數據的實時同步，這樣保證目标端數據的可用性。當然也有不care曆史數據的場景，此時就無需進行全量遷移的動作。
1. 實時集成

我們主要采用基于日志的CDC方式來實現增量數據的實時同步，CDC即change data capture，捕獲數據的變化。

實時集成通過讀取源端數據庫日志bin_log來捕獲數據的變化情況（insert、update、delete），将其傳輸到kafka topic中，然後通過spark streaming對數據進行轉換/清洗，寫入到stg增量表中，最後将增量數據與全量數據合并到數倉ods表中。

由于數據庫日志抽取一般是獲取所有的數據記錄的變更（增、删、改），落到目标表時，需要根據主鍵去重，并按照日志時間倒序排列獲取最後狀态的變化情況。

具體的實時集成任務執行邏輯及流程如下所示：

實時集成有以下特點：
源端數據庫産生一條記錄，數據集成實時同步一條記錄
流數據在數據傳輸過程中可能會被丢失或延遲

故相較于離線集成，在數據同步鍊路上，實時集成會增加數據校驗和數據合并兩個動作。
數據校驗主要校驗源端和目标端的數據量，保證數據沒有被丢失
數據合并則是由ods庫base表和cdc目标庫increment表組成，具體邏輯為：将stg數據按主鍵去重，取最新一條，根據主鍵與ods數據表中的T 1數據合并
2. 離線集成

離線集成分為全量和增量兩種方式對大規模數據進行批量遷移。
全量遷移是将某些表的全部曆史數據同步到目标數據源中
增量遷移，通常需要使用where子句（RDB）或者query子句（MongoDB）等增量配置參數，同時在結合調度參數（定時任務的重複周期：分鐘、小時、天、周、月等）可實現增量遷移任意指定日期内的數據。

比如，想要實現每日數據的增量同步，各參數可配置為：
Where子句：配置為DS=’${dateformat(yyyy-MM-dd,-1,DAY)}’，
配置定時任務：重複周期為1天，每天的淩晨0點自動執行作業

增量遷移的數據可以對目标端數據源表中數據進行追加、覆蓋和更新操作。

作者：細嗅薔薇，零号産品er

本文由 @細嗅薔薇原創發布于人人都是産品經理，未經許可，禁止轉載

題圖來自 Unsplash，基于 CC0 協議
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技貓眼購票哪些票不可以退
■按：購買了演唱會門票後，進場日期竟然被悄悄修改了？随着國内疫情得到有效控制，停擺已久的線下娛樂正逐步複蘇。線下電影院重啟的第58天，電影市場逐步回暖，線下音樂節也悄然複蘇，2020年國潮音樂嘉年華選擇在國慶長假重磅回歸。據了解，國潮音樂節... 2022-12-27
科技如何連續掃描文件成電子版
文件怎麼掃描成電子版呢？現在電子版的文件使用頻率越來越高了。相比于紙質版的文件，電子版的文件傳輸起來更加快速方便，也更方便随時修改。相信有不少人都有紙質文件轉換成電子版的需求，今天就給大家講解幾種将文件轉換成電子版的簡單方法。第一種方法：迅... 2023-04-01
科技手機怎麼查自己的号碼
手機怎麼查自己的号碼?打電話到身邊親朋好友手機上這種方法相信是大家首先想到的方法，可能每個人都做過這樣的事情，打到對方的電話上就會顯示你的手機号碼，但是這個方法的前提是要有親朋好友在身邊才能更加方便地操作，如果一個人在外要打通電話然後再讓對... 2022-06-11
科技華為手機最值得買的是哪一款
以前華為的Mate系列和P系列無疑是最值得買的機型，近幾年華為為了占領更多的市場份額，也開始走起了“機海戰術”，高中低端均布局了大量的機型，華為也将核心技術選擇性的下放到不同價位機型中，讓其擁有一定的競争力。但是買頂級旗艦機畢竟是少數，多數... 2022-11-16
科技海洋閥門有限公司
上海歐特萊閥門機械有限公司系中外合資、專業研制、開發生産、各種高中壓閥門與國内維生系統閥門專業銷售的高新技術企業，注冊資金1800萬美金；公司位于美麗的上海松江佘山工業園，占地40000平方，其産品廣泛應用于石油，化工，天然氣，市政，給排水... 2022-12-07
科技給大家分享自己制作手機壁紙
上個月，我把自己的手機壁紙全部換成了自己拍攝的照片，實現了壁紙的「自給自足」。在社交平台分享的時候，也偶爾會有人問我能否分享壁紙。授人以魚不如授人以漁，我覺得與其直接分享壁紙，倒不如分享我制作壁紙方法。這樣，每個人都能把自己喜歡的東西拍下來... 2023-01-26
科技蘋果手機怎麼拒接電話
蘋果手機怎麼拒接電話?首先進入手機系統後，然後再點擊手機的撥号圖标的，下面我們就來聊聊關于蘋果手機怎麼拒接電話?接下來我們就一起去了解一下吧!蘋果手機怎麼拒接電話首先進入手機系統後，然後再點擊手機的撥号圖标的。找到需要拒接電話，點擊号碼後方... 2022-06-16
科技 iphonex與iphonexr拍照...
想要了解更多熱門資訊、玩機技巧、數碼評測、科普深扒，可以點擊右上角關注我們的頭條号：雷科技-----------------------------------今天早上，著名影像評測機構DxOMark公布了iPhoneXR的拍照測試成績，其... 2023-04-01
科技為何夏天機票便宜
2020年已進入12月，年末、新年出行季也越來越近。從12月3日開始，元旦假期的火車票已經開售。不少網友在社交網絡表示：今年元旦期間機票價格大跳水，多條航線價格比火車票低一半。12月7日，紅星新聞記者從去哪兒處獲悉，元旦首日長沙-廣州、廣州... 2023-02-27
科技小米黑科技手機大全
不知道大夥昨晚618預售的戰況如何鴨～鴨鴨反正在發揚（一夜十三郎的）精神、付完了尾款後，秒變“窮倒鴨”！但話又說回來，咱（韭菜）們發光發熱的同時，隔壁瘋奪“年輕人第一次”的小米也沒閑着……這回的魔改版小米11Pro首發200W有線快充和12... 2022-10-24
科技手機雙清是什麼意思
手機雙清是什麼意思?雙wipe是俗稱為雙清，即清除系統緩存和清除用戶數據并恢複出廠設置（wipedata/factoryreset），我來為大家講解一下關于手機雙清是什麼意思?跟着小編一起來看一看吧!手機雙清是什麼意思雙wipe是俗稱為雙清... 2022-06-19
科技派派是什麼應用程序
最近，熟人社交應用派派逐漸在朋友圈流行起來，并成為好友間溝通交流的重要方式。派派到底有什麼好玩的，為什麼身邊那麼多都在玩？今天，小編就為大家介紹下派派這款熟人社交應用的四大玩法。1.偷好友紅包在派派您可以像當年偷菜一樣“偷”熟人好友的紅包，... 2023-01-18
科技移動手機卡無網絡沒信号怎麼回事啊
移動手機卡無網絡沒信号怎麼回事啊?先查看下周圍朋友用移動手機是否有信号，如果其他人手機也無信号那就有可能是當地網絡基站問題，建議聯系當地營業廳處理，我來為大家講解一下關于移動手機卡無網絡沒信号怎麼回事啊?跟着小編一起來看一看吧!移動手機卡無... 2022-06-12
科技戴爾電腦專營店
上海戴爾電腦專賣旗艦店（晶品總店）位于；上海市靜安區愚園路68号晶品購物中心4樓27号；處于上海市中心，高端商務CBD地段，有着衆多高端商務樓及購物商場；店内陳列有戴爾全系列筆記本、電腦、顯示器及周邊配件；設有三大特定模拟體驗區（高效辦公、... 2023-02-07
科技 qq拼音輸入法如何使用
【中關村在線軟件資訊】6月20日消息：QQ拼音輸入法日前更新到了5.3.3203.400版本，新版支持了全新的顔文字，同時更新二級窗口，使設置窗口風格更統一，此外還修複了部分BUG。QQ拼音輸入法QQ拼音輸入法5.3.3203.400更新内... 2022-12-11
科技富士相機型号最新款
10月12日，富士膠片（中國）投資有限公司在大連恒隆廣場隆重發布了全新一代手機照片打印機instaxminiLink，該産品搭配專屬手機APP，創新融合了自拍變焦、視頻打印，以及獨樹一幟的社交互動功能，引領手機照片打印機的新風潮。富士膠片（... 2023-04-01
科技汽車進氣系統清洗一般多久洗一次
這個問題大家都有遇到過，汽車行駛一段時間或一段裡程就會去4S店保養，而接待人員這時候就會建議一些保養套餐，下面就結合本人經驗給大家說道說道！首先給大家介紹一下發動機的進氣系統，進氣系統主要包括空氣濾清器、進氣軟管、節氣門、進氣歧管及傳感器等... 2023-03-08
科技 vivox80pro新機到手應該做什...
今年vivo發力高端市場，推出了vivoXFold、vivoXNote以及vivoX80系列，分别是折疊屏、大屏以及主流手機，前兩者面向的用戶群體小衆，而vivoX80系列價格更低，但Pro版本依舊來到了5499元，很多人表示vivoX80... 2022-12-05
科技華為鴻蒙系統通話動畫怎麼關閉
華為暢連大家肯定都不陌生，它是一款華為自己的免費通信類工具，同時支持高清視頻通話，并且還支持在多種設備間的流轉，比如華為智慧屏、平闆、手機、手表等等。華為暢連作為社交軟件雖然在功能上與微信相同，可以發消息、視頻通話、發布生活動态等等，但是他... 2022-12-17
科技榮耀earbuds 3 pro真無線
TWS耳機的發展，仿佛是個循環。初期，各家TWS廠商主推音質，畢竟無線耳機也是耳機；随着無線技術的提升，TWS耳機又在快速連接、超低延遲等方面大力發展；到了2020年，降噪似乎成了行業主旋律，你20dB、我40dB，降噪深度的數字不累加，似... 2022-11-30
科技廢舊手機可以拿去哪裡回收
舊手機回收真的賺錢嗎？我麼經常能在大街小巷聽到：“舊手機換菜刀換盆”。據說有人靠這個年入100萬，這可能嗎？這些小販們又是怎麼盈利的呢？首先來看一組數據，據網上調查顯示，我國每年産生的廢舊手機有2.4億部。如此多的廢舊手機，小商販們不愁回收... 2022-11-18
科技 html字符所占像素
html字符所占像素?一、PX\EM\PT單位介紹px單位名稱為像素，相對長度單位，像素（px）是相對于顯示器屏幕分辨率而言的國内推薦；，現在小編就來說說關于html字符所占像素?下面内容希望能幫助到你，我們來一起看看吧!html字符所占像... 2022-12-12
科技三星如何關閉隐藏應用
你的手機裡有“小秘密”嗎？想必大家手機裡都會有自己的隐私空間~手機界面上的應用多，一來桌面不整潔，影響美觀也不方便使用；二來偶爾會因為工作或其他原因，将手機借出時，擔心他人看到手機上的隐私内容，總是忐忑不安。那手機隐私不想被看到怎麼辦？三星... 2022-12-03
科技電子郵箱服務器填寫什麼
普通郵箱不夠用，注冊個TOMVIP郵箱看一看。常用的電子郵箱可分為普通郵箱、VIP郵箱和企業郵箱三部分，看到網上有很多人都升級到了VIP郵箱，VIP郵箱怎麼申請？郵箱系統服務器比普通郵箱更穩定嗎？郵箱系統服務器對比當然是VIP更好了，VIP... 2022-12-29
科技電腦上怎麼設置固定ip地址
電腦上怎麼設置固定ip地址?當我們需要組建局域網，連接許多電腦的時候我們會重新設置電腦的ip地址，電腦才能連上網那麼怎麼設置電腦的ip地址呢？下面介紹方法：，現在小編就來說說關于電腦上怎麼設置固定ip地址?下面内容希望能幫助到你，我們來一起... 2022-11-14
科技微信數據備份怎麼恢複不了
微信數據備份怎麼恢複不了?首先重新下載一個微信安裝，完成以後先不用進行内容恢複，先登上微信你會發現漂流瓶、聊天記錄等等都沒有，下面我們就來說一說關于微信數據備份怎麼恢複不了?我們一起去了解并探讨一下這個問題吧!微信數據備份怎麼恢複不了首先重... 2022-06-26
科技 mac屏幕永不休眠在哪設置
通常在Mac電腦鎖屏後會進入待機狀态，然而有時候我們需要Mac電腦隻鎖屏而不進入待機狀态，如何做到呢？我們可以用Mac電腦内置的自動操作程序來完成，下面分享如何使用Mac電腦中的自動操作程序，來設置電腦隻鎖屏而不待機。1、在Mac電腦中打開... 2022-12-20
科技以太網高速數據采集存儲卡
代威威，董文嶽,(珠海歐比特控制工程股份有限公司廣東珠海519080)數據采集卡是模-數信号轉換與信号處理系統的關鍵部分。在要求不高的工控應用場合中，大多數應用采樣速率均低于1Msps的中、低速數據采集卡;采樣速率高于1Msps的高速或者超... 2023-01-11
科技注銷手機号相關賬号還能用嗎
①銀行卡：與發卡行聯系，可通過網銀專業版或前往銀行櫃台解除綁定；②淘寶：進入我的淘寶、賬戶設置、個人資料、解綁手機；③進入“我”、設置、賬号與安全、手機号、更換手機号；④支付寶：進入“我的支付寶”、賬戶設置、修改手機号。, 2022-11-22
科技使用國産化操作系統意義
使用國産化操作系統意義?“在功能産品向智能産品轉換過程中，如果沒有操作系統，芯片再強，汽車做得再好，都是在沙灘上起高樓如果‘缺芯少魂’問題不解決，我們走不快，也走不遠”在第四屆全球新能源與智能汽車供應鍊創新大會上，全國政協經濟委員會副主任苗... 2022-12-01

tft每日頭條

> 科技

> 數據集成平台簡介

數據集成平台簡介

1. 産品介紹

2. 核心流程

3. 其他大數據産品的聯系和區别

1. 實時集成

2. 離線集成

相关科技资讯推荐

热门科技资讯推荐

网友关注