一份數據支持多種應用場景 CarbonData融合數據存儲方案技術揭秘
Apache CarbonData 是由華為發起並開源的一種高性能數據存儲格式,通過新的融合數據存儲方案,以一份數據同時支持多種應用場景,解決了當前業界因分析場景需求各異而導致的存儲冗餘等問題。同時,CarbonData 通過多級索引、字典編碼、列存等特性提升 IO 掃描和計算性能,實現百億數據級秒級響應,它的出現為大數據低延時查詢提供了一種新的思路和方向。
為幫助關注 CarbonData 的開發者深入了解該技術,我們發起了一場關於 Apache CarbonData+Spark 的技術交流會,並邀請了來自美國 Databricks、華為、上汽集團的行業頂尖專家,希望通過 Spark SQL 使用場景、Spark 2.2 核心特性 CBO 介紹、CarbonData 應用實踐 +2.0 新技術規劃等主題內容的分享,讓 CarbonData 的使用變得更加簡單。
活動時間及地點
活動時間:2017 年 9 月 2 日 13:30-17:10
活動地點:上海車享大樓 (一層會議廳)
活動費用:限額免費
活動日程
講師及演講主題
議題一:Spark SQL: Past, Present and Future
講師簡介:範文臣,來自美國 Databricks 公司,Apache Spark PMC member,Spark SQL 開發團隊成員。2013 年從浙江大學畢業後,一直在進行分散式系統相關的工作。2014 年開始接觸 Spark,並成為最活躍的代碼貢獻者之一。2015 年正式加入 Databricks,成為 Databricks 中國分部(籌建中)的第一名員工,主要負責開源社區方面的工作,例如:審查其他社區成員提交的 PR,主導 Spark SQL 一些主要功能的設計和研發,定期審計項目代碼質量等。
議題摘要:Spark SQL 作為 Spark 的基礎框架,已經有了廣泛的用戶基礎,並且經歷了一段漫長的開發歷史。本次議題將會帶領大家回顧一下 Spark SQL 的演進歷史,以及目前的現狀,和未來的一些展望,幫助大家更好的理解 Spark SQL 的一些設計決策以及使用場景。
議題二:CarbonData 應用實踐 +2.0 新技術規劃介紹
講師簡介:李昆,Apache CarbonData committer,華為技術有限公司大數據軟體架構師。2004 年加入華為,長期從事電信協議、業務智能化、數據可視化、用戶行為分析等系統研究和開發工作。近年致力於大數據技術研究,參與 Hadoop、Spark、Alluxio 等開源社區,2016 年作為 CarbonData PMC 成員參與 Apache CarbonData 項目孵化,尋求大數據與一站式分析平台的創新機會點。
議題摘要:Apache CarbonData 是一種新的高性能數據存儲,針對當前大數據領域分析場景需求各異而導致的存儲冗餘問題,CarbonData 提供了一種新的融合數據存儲方案,以一份數據同時支持大數據分析的多種應用場景(如:「任意維度組合的數據查詢分析、快速掃描、詳單查詢、數據更新刪除等」),並通過多級索引、字典編碼、列存等特性提升了 I/O 掃描和計算性能,實現百億數據級秒級響應。
CarbonData 開源後,受到全球大數據技術愛好者高度關注;截止到目前為止,全球已有 100+ 開發者參與了代碼貢獻,有 10+ 家企業上線生產系統。本次演講主要介紹 CarbonData 應用實踐以及 2.0 新技術規劃,幫助大家更好地應用 CarbonData 技術。
議題三:Spark 2.2 核心特性 CBO 介紹
講師簡介:王振華,現任華為公司研究工程師,Apache Spark 核心 Contributor, CBO 主要開發者,致力於構建高性能大數據查詢分析平台。在此之前,博士畢業於浙江大學計算機科學與技術學院,研究方向涉及空間資料庫、信息檢索、數據挖掘。
議題摘要:在 Spark SQL 的 Catalyst 優化器中,許多基於規則的優化技術已經實現,但優化器本身仍然有很大的改進空間。例如,沒有關於數據分布的詳細列統計信息,因此難以精確地估計過濾(filter)、連接(join)等資料庫操作符的輸出大小和基數 (cardinality)。由於不準確的估計,它經常導致優化器產生次優的查詢執行計劃。
在 Spark 2.2 中,在 Spark SQL 引擎內添加了一個基於成本的優化器框架,此框架計算每個資料庫操作符的基數和輸出大小。通過可靠的統計和精確的估算,能夠在這些領域做出好的決定:選擇散列連接(hash join)操作的正確構建端(build side),選擇正確的連接演算法(如 broadcast hash join 與 shuffled hash join),調整連接的順序等等。在這次演講中,將展示 Spark SQL 的新的基於成本的優化器框架及其對 TPC-DS 查詢的性能影響。
議題四:CarbonData 重要特性 Partition+ 上汽集團實踐 CarbonData 分享
講師簡介:曹魯, Apache CarbonData 核心 Contributor, partition 主要開發者,現任上汽集團數據業務部大數據平台開發經理。目前主要專註於大數據平台架構,數據存儲、壓縮、索引以及實時流數據處理等領域的研究及應用。曾負責某金融行業公司 ETL、BI 系統開發,某互聯網電商公司的數據倉庫容量管理、性能調優等。熱衷開源技術研究,Apache CarbonData 社區貢獻者。
議題摘要:CarbonData 的 partition 特性將在 Apache CarbonData 1.2.0 版本里正式發布,此特性將顯著提升大數據查詢性能。上汽集團大數據將 CarbonData 作為平台基礎組件,以應對迅猛增長的數據量,本議題將分享上汽集團在 CarbonData 項目的實踐和測試數據。
免費報名地址
點擊展開全文
※騰訊遊戲容器雲平台的技術演進之路
※FreeWheel前後端分離改造實踐
※測試已死?我看未必!
※1小時上手 TensorFlow 深度學習應用
TAG:InfoQ |
※蘋果確認使用Google雲存儲部分 iCloud 數據
※Redis 數據類型
※Python數據處理實戰——使用Scikit-Learn進行多類文本分類
※FB及Cambridge Analytica因用戶數據泄露事件面臨訴訟
※Perl 數據類型
※使用Alluxio加速基於Ceph對象存儲的數據分析
※Facebook力推VPN應用,可收集用戶隱私數據
※透析Facebook事件,對AI行業數據合規的思考
※通過區塊鏈構建分散式信用數據體系,Distributed Credit Chain打造去中心化的金融生態系統
※三星推出適用於Android數據保護和隱私保護Samsung Max應用程序
※Twitter 開源數據分析工具——tinfoleak
※基於Markov Chain Monte Carlo的智能手錶睡眠數據分析
※Google收購Cask Data,進一步強化大數據分析能力
※「Python」Chapter1 變數和簡單數據類型
※MySQL官方Docker鏡像的數據存儲問題
※你的iCloud數據可能存儲在Google Cloud中
※TalkingData:曝光iPhoneX真實在用量數據
※LeicaTS系列全站儀數據傳輸方法及Leica Geo Office軟體的應用
※黑客出售黎巴嫩間諜軟體DarkCaracal,竊取全球Android手機、WindowsPC數據
※RocksDB數據存儲格式分析