大數據裡面的etl功能-tft每日頭條

大數據裡面的etl功能

科技更新时间:2025-08-14 07:24:41

大數據裡面的etl功能（大數據分析工程師入門16-ETL工程）1

數據與智能 本公衆号關注大數據與人工智能技術。由一批具備多年實戰經驗的技術極客參與運營管理，持續輸出大數據、數據分析、推薦系統、機器學習、人工智能等方向的原創文章，每周至少輸出10篇精品原創。同時，我們會關注和分享大數據與人工智能行業動态。歡迎關注。

導語上一篇文章，我們簡單介紹了數據收集的基礎知識，那麼數據收集到之後，我們該怎麼去做下一步的處理呢？本篇文章，我們将來重點介紹下ETL工程的作用、原理和實現過程，期望能對大家理解數據分析體系架構有所幫助。1. 為什麼要講ETL工程ETL工程是數據分析處理中非常重要的一環，ETL工程的輸入是各種數據源，輸出是各種用于分析的表和數據文件，因此它直接決定了用來分析的數據是否易用、數據質量的好壞、數據是否完整、數據是否可信等關鍵性問題。可以說，ETL在數據分析工作中占據着非常重要的地位，所以在本文我們會帶領大家了解下ETL的内部構造。2.本文的目标因為這是入門系列文章中的一篇，因此我們不會過于沉入技術細節，而是從一個全局的角度，用盡可能簡潔的語言，帶領大家了解下ETL的概念、作用、組成結構、數據處理方式等，旨在讓大家對ETL有一個比較全面的了解，期望可以在面試或者工作中幫助到大家。3. 本文的講解思路第一部分，講解ETL的概念和作用，讓大家對ETL有個初步的了解。第二部分，講解ETL針對不同的數據和情況是如何處理的，讓大家了解它是如何運作的。第三部分，講解ETL的運行過程，以及在編寫ETL程序時，應該注意哪些問題，這部分主要是為了讓大家對ETL有個稍微深入一點的了解，在面試和工作中都可以自如應對。×××以下為正文01ETL簡介

ETL ，是三個英文單詞Extract-Transform-Load的首字母縮寫，用來描述将數據從來源端經過萃取（extract）、轉化（transform）、加載（load）至目的端的過程。ETL通常用于數據倉庫的構建過程，它的主要作用是将企業中分散、非完全結構化、标準不統一的各種數據，整合到一起，形成企業級統一數據倉庫，為企業的分析決策提供有質量保證的數據源。

ETL的一般過程

從ETL的字面來看，就知道它主要包含三大階段，分别是數據抽取、數據轉換、數據加載。接下來我們将依次對這三個階段進行詳細的介紹。

1.數據抽取

這個階段的主要目标是彙總多種數據源，為下一步的轉換做準備。在動手做抽取之前，你需要充分了解你的各種數據源，理解并利用他們的特性，結合實際分析業務需求，選擇合适的抽取方式。下面我們針對常見的幾種數據源，談下他們常用的抽取方式。

1.1 關系型數據庫

這種數據源的特性是數據高度結構化、數據量不算特别大、數據更新相對頻繁、數據質量較高、數據獲取比較方便。根據分析業務需求的不同，一般分為離線抽取和實時抽取。

離線抽取，應用場景是對短時間内的更新不敏感，隻關心一段時間後的最終狀态，一般是固定周期定時抽取。抽取方法，可以采用快照的方式，對整個表做全表快照；或者是采用基于時間字段的增量抽取，但是需要對這個字段的更新場景非常了解。

實時抽取，通常的應用場景是對數據的最新狀态非常敏感，當有新數據插入或者舊數據更新時，需要及時抽取。抽取方法有很多，其中常用的一種是基于消費數據庫binlog的方式，如阿裡開源的canal。

1.2 服務端程序日志文件

這種數據源的特性是各種日志數據混雜在一起（需要過濾出自己需要的）、數據格式比較多樣（格式可能不統一）、數據量相對較大。對于這類數據，通常的方法就是過濾抽取。抽取方法，可以使用flume監控文件目錄，或者使用FileBeat實時監控文件内容變化。

1.3 客戶端用戶行為數據

在上一篇文章裡，我們講到了客戶端用戶操作日志的數據收集方案，其實也算是一種抽取方式。這種數據源的特點是數據量非常大、數據源非常分散、數據質量參差不齊、數據結構化程度高。針對這種數據，通常的抽取方法，就是專門設計一個數據收集系統來處理收集數據的問題，不清楚的同學可以看下上篇文章《大數據分析工程師入門15-數據收集》。

1.4 其他

實際工作中，我們可能還會有其他數據源，如NoSQL數據庫、人工整理的數據（例如Excel）、消息隊列中的數據、系統運行數據、時序數據庫等。這些都需要根據具體數據源的特性和具體分析業務的需要，來設計抽取方式，篇幅有限，這裡就不一一舉例了。

2.數據轉換

這個階段是ETL的核心環節，也是最複雜的環節。它的主要目标是将抽取到的各種數據，進行數據的清洗、格式的轉換、缺失值填補、剔除重複等操作，最終得到一份格式統一、高度結構化、數據質量高、兼容性好的數據，為後續的分析決策提供可靠的數據支持。下面對其主要過程做下簡單說明。

2.1 數據清洗

這個環節的主要作用是清洗掉髒數據，以免混入正常數據中，造成數據質量下降，引導有偏差的錯誤決策。通常的做法有，md5校驗、關鍵字段檢查、格式類型一緻性檢查、無效性檢查等。

md5校驗通常用于通過公網傳輸的數據，為防止數據被篡改，需要比對md5值來保證數據的安全性，沒能通過md5檢驗比對的數據将被視為髒數據過濾掉。

關鍵字段檢查，是指在一條數據記錄中，非常關鍵的字段，如果其值不合法，或者類型不對，将被視為非法數據。比如，識别用戶行為的字段，其值不在規定取值範圍内時，将無法識别具體是做了什麼操作，将被視為非法數據清洗掉。

格式類型一緻性檢查，就是檢查一條數據記錄的整體格式或者重要字段的類型是否符合規範，如果不符合，同樣也是沒辦法處理，隻能作為髒數據處理掉。例如，不合法的日期格式。

無效性檢查，通常是比較嚴格的過濾方法，它主要目的是為了保證數據的高可靠性，通常是事先規定好數據的可信範圍，不滿足的将被視為不可信的無效數據。

2.2 格式轉換

這個環節的主要作用是對數據格式做統一化規範化處理，方便後續的分析作業能夠更好地使用數據。一般根據源數據格式和目标格式的不同，會有不同的實現。一般包含記錄格式轉換和字段格式轉換。記錄格式轉換，就是最終将一條記錄轉換成什麼格式，例如轉成json格式或csv格式。字段格式轉換是對字段值進行格式的統一化處理，如将長整型時間戳全部轉化為人類可讀的日期格式。

2.3 缺失值填補

這個環節是針對數據中缺失的空位進行填充，以保證數據類型的一緻性或完整性。例如，對于一個數量類的整數型字段，當其值缺失時，可以考慮填充0。這裡要注意的是缺失值填充要相對謹慎一些才行，因為這個過程相當于是在修改原始數據，一定要确保填充的值對後續的分析不會造成誤導性的影響。

2.4 剔除重複數據

這個環節的主要作用是防止數據重複上傳，造成誤判。例如，一個用戶播放一個視頻，産生一條播放數據，如果由于某種原因，數據重複上傳了3次。在服務端看來這個用戶就看了3次這個視頻，可能就會誤以為這個用戶非常喜歡這個節目。因此，剔除重複數據，是非常有必要的，也是保證數據質量的前提。

2.5 增加必要信息

這個環節通常的作用是對數據增加一些追蹤信息或者是生成一些必要的标識字段。有些字段是和具體的業務強相關的，也有一些通用的字段。比如，源數據裡隻有長整型時間戳字段，可以增加可讀性比較高的日期時間字段，還可以增加數據來源字段便于追蹤數據血緣關系。

2.6 其他

有些公司根據自己公司的具體業務，可能會增加數據抽樣、數據聚合、指标合并等環節，這和公司的分析訴求是強相關的，這裡就不展開講了。

3.數據加載

這部分的主要目标是把數據加載至目的地，比如數據倉庫中。通常的做法是，将處理好的數據寫成特定格式（如parquet、csv等）的文件，然後再把文件挂載到指定的表分區上。也有些表的數據量很小，不會采用分區表，而是直接生成最終的數據表。

ETL vs. ELT

可能有些同學聽說過ELT的概念，這裡我們也簡單介紹下，并說下它和ETL的區别。

ELT，從字面上看，就是把L（加載）放在了T（轉換）前面，也就是說處理過程是萃取（extract）、加載（load）、轉化（transform）。實際上，稱為ELTL更合适，先把數據抽取出來，之後加載到目的地，然後再進行數據轉化，最後再把轉化後的結果加載到新的數據表中。

它和ETL的最大區别就是，處理上的順序略有不同。ELT這樣做的好處，是為了将數據先轉移到另一個體系中，之後就可以利用新體系下的一些框架完成對數據的高效處理（數據轉換）。

筆者公司就是采用的這種方式，我們會把收集到的用戶數據，首先以原始文件的形式加載至數據倉庫的原始層，之後再調用spark處理框架對數據做各種處理轉換，最後再把轉換後的結果加載到數據倉庫的新的表中。在這個過程中，就是先把數據轉移到分布式存儲（HDFS）上，然後才能利用分布式的數據處理框架（spark）完成高效的數據轉換操作。

ETL的運行過程

前面幾個部分我們介紹了ETL的概念，以及它的各個環節。本小節我們來說下，ETL的實際運行過程。ETL不是一個一勞永逸的過程，因為數據會源源不斷地來，因此ETL需要定時或實時地對新來的數據進行數據。這裡我們就簡單介紹下用戶行為數據的離線ETL的大緻運行過程。

第一步，需要客戶端SDK和數據收集服務的配合，不斷地抽取客戶端上發生的用戶行為，并以文件的形式寫入磁盤。

第二步，會有一個定時調度程序，負責将收集到的大量行為日志文件，切割并上傳至HDFS上，并在指定位置寫入上傳完成的标記文件。

第三步，另一個定時調度程序會啟動一個數據處理作業，去讀取上傳完成标記，待上傳完成後，讀入原始數據，開始進行數據轉換處理，并将處理好的結果寫入HDFS特定的位置。

第四步，通過特定腳本或者SDK将第三步産生的文件加載到對應的數據的特定分區上，至此一次完整的過程就完成了。

有些同學可能會有疑問，為什麼第二步和第三步不放在一個工作流中調度？這是因為第二步是發生在數據收集服務端集群上的，是一個多台并行的調度，而第三步是調度起一個spark處理程序，是提交一個作業到yarn集群上，兩個過程是無法組成一個工作流的。

開發ETL工程的注意事項

ETL程序的開發是一個非常複雜的過程，筆者公司也是經過了很久的叠代才趨于穩定的。以下羅列其中一些注意事項，希望對相關開發同學有所幫助：

數據清洗一定要慎重。因為清洗操作稍有不慎，就可能把正常的數據給過濾掉了。因此，比較好的實踐方式是，在處理過程中增加計數機制，即記錄整個批次的原始數據量，以及每個特定邏輯清洗掉了多少數據，這樣不僅能做到心中有數，同時也可以将這些計數結果監控起來，如果某個數值異常升高，可能是業務數據發生了變化或某個邏輯出了問題。
缺失值填充要結合具體業務。前面提到了關于缺失值的填充，這裡強調一點是要結合具體業務和分析需求來對缺失值進行填充，如果無法明确該如何填充，其實存Null值比填充更好。因為錯誤的填充缺失值，可能會破壞原有的數據。
設計好數據組織規範。是否有一個比較好的數據組織規範，決定了數據加載環節實現的難易程度。建議大家要從後向前設計，先設計好存儲規範，然後再進行前面的數據轉換設計。
統一實時ETL和離線ETL。有些業務場景會出現一份數據既用于實時業務，也用于離線分析。那麼，值得注意的是，最好離線和實時的ETL處理邏輯要能夠統一，避免由此導緻出現不一緻的統計口徑。

總結作為一名入門級選手，隻需要了解上文的這些内容就差不多了，剩下的就是在具體工作中，結合公司的具體業務，在實際操練過程中，加深對ETL的理解。希望本文能夠對你有所幫助。- END -,

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技食品科學與工程專業就業方向與就業前景...
高考填報志願時，食品科學與工程專業就業方向有哪些以及就業前景怎麼樣是廣大考生和家長朋友們十分關心的問題，以下是整理的食品科學與工程專業簡介、就業方向、就業前景等信息，供大家參考。1、食品科學與工程專業簡介食品科學與工程專業以化學、生物學和工程學為理論基礎，學習食品的開發、貯藏、加工、營養、衛生與安全... 2023-07-14
科技蘋果7plus參數是什麼
1、CPU：蘋果A102.23GHz(4核)2、CPU頻率：22303、運行内存：3GB4、機身容量... 2023-07-14
科技王者榮耀qq授權登不進去怎麼回事
1、網絡的問題，無線網絡信号太差或者網速延遲太高。把WiFi無線網絡關閉掉，用手機數據連接4G網絡登錄。2、服務器的問題，可能遊戲正在維護或者升級中。看下遊戲官方網站的公告，是不是在維護中，一般都會注明什麼時候會維護好，可以登錄。3、手機内存不夠用的了，手機都自帶清理工具，點擊一鍵清理下，或者直接重啟手機在登錄。4、安裝的遊戲有問題，卸載遊戲清理垃圾，然後在正規的應用商店重新安裝遊戲，或者到官網上 2023-07-14
科技怎麼查微信全部的聊天記錄
1、方法1：進入聊天頁面，點擊右上角的“小人兒“圖标。點擊“聊天信息“裡的”查找聊天記錄“。這裡可以... 2023-07-14
科技地理信息系統與地圖制圖技術專業就業方...
高考填報志願時，地理信息系統與地圖制圖技術專業就業方向有哪些以及就業前景怎麼樣是廣大考生和家長朋友們十分關心的問題，以下是整理的地理信息系統與地圖制圖技術專業簡介、就業方向、就業前景等信息，供大家參考。1、地理信息系統與地圖制圖技術專業簡介地理信息系統是管理和研究空間數據的技術系統，是當今空間信息技... 2023-07-14
科技釘釘直播學生怎麼連麥
演示機型：Iphone12系統版本：iOS14.4.1APP版本：釘釘6.0.9打開釘釘，進去班級群，點擊群直播。在直播準備界面，勾選支持連麥，點擊開始直播。進去直播界面之後，點擊連麥管理。在連麥管理界面，點擊邀請連麥。進去之後，可以邀請正在觀看直播的學生連麥。釘釘：釘釘（DingTalk）是阿裡巴巴集團專為中國企業打造的免費溝通和協同的多端平台，提供PC版，Web版，Mac版和手機版，支持手機和 2023-07-14
科技設施農業技術專業就業方向與就業前景怎...
高考填報志願時，設施農業技術專業就業方向有哪些以及就業前景怎麼樣是廣大考生和家長朋友們十分關心的問題，以下是整理的設施農業技術專業簡介、就業方向、就業前景等信息，供大家參考。1、設施農業技術專業簡介設施農業技術專業學生主要學習建築力學、建築材料與建築結構、建築工程測量與制圖技術、農業設施施工技術、設... 2023-07-14
科技 C盤突然滿了怎麼辦
電腦是我們經常使用的一種智能處理設備，熟練掌握軟件操作技能能幫助我們更好的娛樂生活。你知道C盤突然滿了怎麼辦嗎?快來看看吧!方法一：删除C盤中一些沒用的文件方法二：将C盤中的軟件剪切到别的盤中。方法三：對C盤進行磁盤清理，右擊C盤點擊“屬性”，點擊“磁盤清理”即可。在清理C盤時一定要小心，不要動到重... 2023-07-14
科技商業載人航天是什麼意思
1、當地時間5月30日15時24分，搭載兩名美國宇航員的美國太空探索技術公司SpaceX龍飛船發射成... 2023-07-14
科技花呗怎麼用
1、首先花呗需要在支付寶自主開通功能，而且額度是系統根據你的大數據設定的，額度會根據你的消費習慣和信... 2023-07-14
科技電腦屏保卡住了怎麼解決
1、有可能是電腦軟件出現了問題，軟件還沒有反應過來，這個時候可以适當的等待，等一會兒軟件有可能反應過... 2023-07-14
科技 github是什麼
1、GitHub是一個面向開源及私有軟件項目的托管平台，因為隻支持git作為唯一的版本庫格式進行托管，故名GitHub。2、GitHub于2008年4月10日正式上線，除了Git代碼倉庫托管及基本的Web管理界面以外，還提供了訂閱、讨論組、文本渲染、在線文件編輯器、協作圖譜（報表）、代碼片段分享（G... 2023-07-14
科技微信十大隐藏功能
1、悄悄加回已删好友：很多人删掉别人事後又後悔，不過單方面删除他人是可以重新添加好友，而且不需要驗證... 2023-07-14
科技霧天拍攝的技巧
1、曝光的合理控制。在大霧中，整個世界都是白茫茫一片。相機的自動測光系統很容易被環境所幹擾。拍攝霧景... 2023-07-14
科技文件删了怎麼恢複手機裡
1、準備工具，安裝一個相關手機軟件。2、使用方法，打開軟件，選擇上面的“文件恢複”選項，接着在彈出的... 2023-07-14
科技 vivo手機怎麼開變聲器
1、vivo手機沒有自帶通話變聲的功能，建議您進入應用商店下載第三方的變聲軟件使用（比如：變聲電話）... 2023-07-14
科技安裝系統找不到硬盤怎麼辦
1、重啟電腦，然後不停的敲擊進入BIOS啟動熱鍵，（一般為F2鍵，DEL鍵，ESC鍵，電腦品牌不同按... 2023-07-14
科技生物制藥技術專業就業方向與就業前景怎...
高考填報志願時，生物制藥技術專業就業方向有哪些以及就業前景怎麼樣是廣大考生和家長朋友們十分關心的問題，以下是整理的生物制藥技術專業簡介、就業方向、就業前景等信息，供大家參考。1、生物制藥技術專業簡介生物制藥技術專業學生應掌握生物化學、生化分離分析技術、生物技術及工業藥劑學等方面的基本理論知識和專業技... 2023-07-14
科技如何更改寬帶密碼
1、首先查看路由器底部的登陸地址，然後打開浏覽器輸入192.168.1.1訪問寬帶管理界面。2、然後... 2023-07-14
科技 qcpass标簽是什麼意思
演示機型：華為P40系統版本：EMUI11qcpass簡稱qc，qcpass意思是質量檢查通過。一般産品質量檢查合格，廠家即可給産品貼上qcpass标簽貼。例如手機生産後，經過質量檢查是好的産品，廠家便會貼的一個合格标示。中文的意思即質量通過。華為小技巧：一、關于截屏：華為手機的截屏功能非常強大而且智能。大部分人的截屏方式是同時按住音量下鍵+電源鍵來實現的。那麼有沒有更快速的截屏方式呢。1、使用指 2023-07-14
科技二手gl8真實油耗是多少
1、别克GL8作為頂級MPV的典範，以其豪華氣派、動力強勁、寬敞舒适的優勢實現批量出口，被東南亞媒體譽為完美MPV”；更成為北京申奧、APEC會議等重大國際級外事活動的禮賓用車，比爾蓋茨、馬友友、帕瓦洛蒂都曾是其座上客。别克GL8家族由GL8Avenir、GL8ES及GL8商旅車組成三駕齊驅的産品布... 2023-07-14
科技如何查看手機使用記錄
查看手機使用記錄的方法如下：1、我們先點擊打開手機上的設置。2、在設置頁面，有一個屏幕使用時間的選項... 2023-07-14
科技華為的翻譯功能怎麼用
1、需要按住手機界面下方的圓圈标志，一定要按住。2、按住圓圈後兩秒鐘左右界面中會彈出一個麥克标志，此... 2023-07-14
科技汽車踩離合器技巧有哪些
1、找到半離合的位置。上車後首先要試一下腳感，踩踏闆反複操作幾次感覺一下踩踏彈腳的位置，也就是半聯動接力點的位置，每一輛車的半聯動接力點是不同的，在擡離合器的過程中到了這個位置腳要踩穩，慢擡并制控制住踏闆的位置，這樣才能讓汽車平穩起步或是倒車，不會熄火。2、需要踩離合的情況。汽車上的離合器在正常行車... 2023-07-14
科技農村能源與環境技術專業就業方向與就業...
高考填報志願時，農村能源與環境技術專業就業方向有哪些以及就業前景怎麼樣是廣大考生和家長朋友們十分關心的問題，以下是整理的農村能源與環境技術專業簡介、就業方向、就業前景等信息，供大家參考。1、農村能源與環境技術專業簡介農村能源與環境技術專業學生主要學習電工學、傳熱學、工程力學、工程熱力學及傳熱學、能源... 2023-07-14
科技發動機保護劑的作用是什麼
1、在發動機高溫高壓的環境中，能在發動機金屬表面形成一層極薄但具有極高抗壓強度和耐磨性良好的钼合金保護層，合金層厚度飽和後潤滑油中的硫結合産生MoS2，是一種層狀結構的六方晶體薄膜，能夠顯著降低摩擦系數，剩餘留在潤滑油中随時修複被磨損的六方晶體薄膜。2、钼合金保護層和六方晶體薄膜在高溫（1200度）、超低溫、高轉速、高壓和真空條件下具有優異的潤滑性能，可大幅減少引擎内部的摩擦，顯著提高潤滑油的抗氧 2023-07-14
科技小妙招解決燒機油有哪些
1、機油：機油對于車輛的發動機來說至關重要，不僅能潤滑，還有清潔、冷卻、防鏽、密封等作用。如果車輛出現了輕微燒機油，使用品質較好的機油可以有效緩解。2、提高機油的粘度級别，可減少機油的消耗量，使用單級油時，機油消耗量要小些，而使用多級油，機油消耗量要多些，當我們選擇了高品質機油增加潤滑，減輕發動機在... 2023-07-14
科技微信管理員是什麼級别
1、群主是建立微信群的人，而群管理員不是。群管理員就是微信群的成員。2、群主在群成員裡面排在第一位，... 2023-07-14
科技 2022男生學文科有什麼優勢男生文科...
學生在做選擇時，不應該選擇所謂的“應該選的”，應該選擇最适合自己的。比如有的男生喜歡政史地，有的女生喜歡物化生，那就應該選擇自己喜歡的，因為興趣是最好的老師。下面本站小編就跟大家說一說男生學文科的優勢。文科女生學什麼專業就業前景好2017年文科專業就業率排名盤點文科最難就業的十大專業文科男生大專學什... 2023-07-14
科技微電子科學與工程專業就業方向與就業前...
高考填報志願時，微電子科學與工程專業就業方向有哪些以及就業前景怎麼樣是廣大考生和家長朋友們十分關心的問題，以下是整理的微電子科學與工程專業簡介、就業方向、就業前景等信息，供大家參考。1、微電子科學與工程專業簡介微電子科學與工程專業是理工兼容、互補的專業，主要研究半導體器件物理、功能電子材料、固體電子... 2023-07-14

tft每日頭條

> 科技

> 大數據裡面的etl功能

大數據裡面的etl功能

相关科技资讯推荐

热门科技资讯推荐

网友关注