tft每日頭條

 > 科技

 > carbondata性能

carbondata性能

科技 更新时间:2024-10-14 01:44:01

Apache CarbonData 是由華為發起并開源的一種高性能數據存儲格式,通過新的融合數據存儲方案,以一份數據同時支持多種應用場景,解決了當前業界因分析場景需求各異而導緻的存儲冗餘等問題。同時,CarbonData 通過多級索引、字典編碼、列存等特性提升 IO 掃描和計算性能,實現百億數據級秒級響應,它的出現為大數據低延時查詢提供了一種新的思路和方向。

為幫助關注 CarbonData 的開發者深入了解該技術,我們發起了一場關于 Apache CarbonData Spark 的技術交流會,并邀請了來自美國 Databricks、華為、上汽集團的行業頂尖專家,希望通過 Spark SQL 使用場景、Spark 2.2 核心特性 CBO 介紹、CarbonData 應用實踐 2.0 新技術規劃等主題内容的分享,讓 CarbonData 的使用變得更加簡單。

活動時間及地點

活動地點:上海車享大樓 (一層會議廳)

活動費用:限額免費

活動日程

carbondata性能(一份數據支持多種應用場景)1

講師及演講主題

議題一:Spark SQL: Past, Present and Future

講師簡介:範文臣,來自美國 Databricks 公司,Apache Spark PMC member,Spark SQL 開發團隊成員。2013 年從浙江大學畢業後,一直在進行分布式系統相關的工作。2014 年開始接觸 Spark,并成為最活躍的代碼貢獻者之一。2015 年正式加入 Databricks,成為 Databricks 中國分部(籌建中)的第一名員工,主要負責開源社區方面的工作,例如:審查其他社區成員提交的 PR,主導 Spark SQL 一些主要功能的設計和研發,定期審計項目代碼質量等。

carbondata性能(一份數據支持多種應用場景)2

議題摘要:Spark SQL 作為 Spark 的基礎框架,已經有了廣泛的用戶基礎,并且經曆了一段漫長的開發曆史。本次議題将會帶領大家回顧一下 Spark SQL 的演進曆史,以及目前的現狀,和未來的一些展望,幫助大家更好的理解 Spark SQL 的一些設計決策以及使用場景。

議題二:CarbonData 應用實踐 2.0 新技術規劃介紹

講師簡介:李昆,Apache CarbonData committer,華為技術有限公司大數據軟件架構師。2004 年加入華為,長期從事電信協議、業務智能化、數據可視化、用戶行為分析等系統研究和開發工作。近年緻力于大數據技術研究,參與 Hadoop、Spark、Alluxio 等開源社區,2016 年作為 CarbonData PMC 成員參與 Apache CarbonData 項目孵化,尋求大數據與一站式分析平台的創新機會點。

carbondata性能(一份數據支持多種應用場景)3

議題摘要:Apache CarbonData 是一種新的高性能數據存儲,針對當前大數據領域分析場景需求各異而導緻的存儲冗餘問題,CarbonData 提供了一種新的融合數據存儲方案,以一份數據同時支持大數據分析的多種應用場景(如:“任意維度組合的數據查詢分析、快速掃描、詳單查詢、數據更新删除等”),并通過多級索引、字典編碼、列存等特性提升了 I/O 掃描和計算性能,實現百億數據級秒級響應。

CarbonData 開源後,受到全球大數據技術愛好者高度關注;截止到目前為止,全球已有 100 開發者參與了代碼貢獻,有 10 家企業上線生産系統。本次演講主要介紹 CarbonData 應用實踐以及 2.0 新技術規劃,幫助大家更好地應用 CarbonData 技術。

議題三:Spark 2.2 核心特性 CBO 介紹

講師簡介:王振華,現任華為公司研究工程師,Apache Spark 核心 Contributor, CBO 主要開發者,緻力于構建高性能大數據查詢分析平台。在此之前,博士畢業于浙江大學計算機科學與技術學院,研究方向涉及空間數據庫、信息檢索、數據挖掘。

carbondata性能(一份數據支持多種應用場景)4

議題摘要:在 Spark SQL 的 Catalyst 優化器中,許多基于規則的優化技術已經實現,但優化器本身仍然有很大的改進空間。例如,沒有關于數據分布的詳細列統計信息,因此難以精确地估計過濾(filter)、連接(join)等數據庫操作符的輸出大小和基數 (cardinality)。由于不準确的估計,它經常導緻優化器産生次優的查詢執行計劃。

在 Spark 2.2 中,在 Spark SQL 引擎内添加了一個基于成本的優化器框架,此框架計算每個數據庫操作符的基數和輸出大小。通過可靠的統計和精确的估算,能夠在這些領域做出好的決定:選擇散列連接(hash join)操作的正确構建端(build side),選擇正确的連接算法(如 broadcast hash join 與 shuffled hash join),調整連接的順序等等。在這次演講中,将展示 Spark SQL 的新的基于成本的優化器框架及其對 TPC-DS 查詢的性能影響

議題四:CarbonData 重要特性 Partition 上汽集團實踐 CarbonData 分享

講師簡介:曹魯, Apache CarbonData 核心 Contributor, partition 主要開發者,現任上汽集團數據業務部大數據平台開發經理。目前主要專注于大數據平台架構,數據存儲、壓縮、索引以及實時流數據處理等領域的研究及應用。曾負責某金融行業公司 ETL、BI 系統開發,某互聯網電商公司的數據倉庫容量管理、性能調優等。熱衷開源技術研究,Apache CarbonData 社區貢獻者。

carbondata性能(一份數據支持多種應用場景)5

議題摘要:CarbonData 的 partition 特性将在 Apache CarbonData 1.2.0 版本裡正式發布,此特性将顯著提升大數據查詢性能。上汽集團大數據将 CarbonData 作為平台基礎組件,以應對迅猛增長的數據量,本議題将分享上汽集團在 CarbonData 項目的實踐和測試數據。

免費報名地址

掃描下方圖片二維碼 或者點擊閱讀原文,填寫報名信息并提交,我們的工作人員審核後将向您發送确認參會短信。無論你是 Apache CarbonData 忠實粉絲和擁趸者,或着在 CarbonData 的使用上有任何的疑問和想法,我們的技術專家都在現場等你!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved