在大數據領域,一種新角色開始出現,被稱為分析工程師,根據數據工作流和團隊的規模,這個角色可以幫助組織加快高級分析工作。
大數據的成功通常是團隊合作的結果。但随着數據的變化和技術的進步,人們在大數據遊戲中扮演的角色也發生了變化。
這就是我們現在看到的趨勢,一種叫做分析工程師的新大數據角色正在崛起。根據dbt實驗室的社區和數據主管Anna Filippova的說法,分析工程師是組織數據倉庫的人,這樣其他人就可以輕松地查詢數據。
Filippova說:“分析工程師就是在一個數據團隊中,有一個專注于從數據中創造意義和結構的人,這是很重要的。将數據作為一種産品來生産,在公司中定義每個人都應該知道如何使用的高質量核心表,并開設培訓課程,教人們如何使用SQL,如何使用這些數據集——諸如此類的事情。”
換句話說,根據Filippova的說法,當dbt将數據工程師以前手工或編寫腳本所做的大部分工作自動化時,分析工程師的角色就出現了。
“他們也稱自己為分析工程師,因為他們基本上是在将軟件工程最佳實踐應用到分析藝術中。”她說。
在Indeed和Monster的招聘公告欄上快速搜索一下,目前并沒有大量的分析工程師職位空缺。在某些情況下,搜索引擎會返回數據工程崗位的結果。
Filippova是通過一條迂回的道路進入分析工程行業的。在加入dbt實驗室之前,她在GitHub的一個數據研究團隊工作,并對數據集成任務的随機執行方式感到沮喪。
“我喜歡幫助人們做決定,但我和其他一些人一樣,意識到當你所有的數據都非常混亂的時候,做決定真的很難,我可以看到每個人都在複制彼此的腳本,做事情的效率真的非常非常低。”
所以她就自己動手了。花時間組織人們正在使用的各種數據轉換腳本,以提高數據分析師團隊的效率。于是GitHub的分析工程團隊就這樣誕生了。最終,她決定去為分析工程師提供最大幫助的公司工作,這就是她在dbt實驗室工作的原因。
她說,許多分析工程師使用dbt來執行數據轉換任務。這家原名Fishtown Analytics的公司,以及dbt社區,建議通過雇傭一名分析工程師來組建一個數據團隊,“然後快速雇傭一名分析師,而不是數據工程師。”
由于現代數據堆棧正在自動化大量以前手工完成的數據集成工作,數據工程師的工作描述開始發生變化。在她之前的工作中,數據工程師更專注于保持前置系統的運行。他們基本上把數據建模留給了分析工程師。
Filippova在談到GitHub的數據工程師時表示:“他們遠遠不能滿足業務所需,不能解決業務存在的問題,因此很難建立一個能夠解決這些問題的數據模型。”
将自己定義為分析工程師“通常等同于dbt用戶,”Filippova說,“盡管不一定是這樣。”
以前稱為數據構建工具的工具當然很受歡迎。在一年的時間裡,它的Slack頻道從15,000個增至逾3.2萬個。今年早些時候,這家位于賓夕法尼亞州費城的公司在完成了2.22億美元的D輪融資後,估值超過40億美元。
雲對象存儲的無限和負擔得起的特性已經掀起了數據向雲移動的浪潮——都可以稱之為數據海嘯。dbt工具已經成為服務于這些數據倉庫的新興數據堆棧的關鍵組件。其他成員包括ELT工具,如Fivetran、Airbyte和Matillion,它們幫助從源系統提取數據并将其加載到雲數據倉庫中,dbt通過使用Jinja開發的自動化SQL腳本作為轉換層,Jinja是Python生态系統中使用的一種通用模闆語言。
這種設置不僅幫助組織在倉庫中移動大量數據進行分析,而且還使分析人員更容易從他們移動的數據中獲得更多信息。這就是分析工程師的角色。
“很長一段時間以來,人們認為你擁有的數據越多,你的洞察力就越好。隻要把更多的數據扔到問題上。一切都會好起來的,”Filippova說。“事實證明,重要的是什麼樣的數據,數據有多幹淨,結構有多好。”
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!