一份數據支持多種應用場景 CarbonData融合數據存儲方案技術揭秘

科技 08-22

Apache CarbonData 是由華為發起並開源的一種高性能數據存儲格式，通過新的融合數據存儲方案，以一份數據同時支持多種應用場景，解決了當前業界因分析場景需求各異而導致的存儲冗餘等問題。同時，CarbonData 通過多級索引、字典編碼、列存等特性提升 IO 掃描和計算性能，實現百億數據級秒級響應，它的出現為大數據低延時查詢提供了一種新的思路和方向。

為幫助關注 CarbonData 的開發者深入了解該技術，我們發起了一場關於 Apache CarbonData+Spark 的技術交流會，並邀請了來自美國 Databricks、華為、上汽集團的行業頂尖專家，希望通過 Spark SQL 使用場景、Spark 2.2 核心特性 CBO 介紹、CarbonData 應用實踐 +2.0 新技術規劃等主題內容的分享，讓 CarbonData 的使用變得更加簡單。

活動時間及地點

活動時間：2017 年 9 月 2 日 13:30-17:10

活動地點：上海車享大樓（一層會議廳）

活動費用：限額免費

活動日程

講師及演講主題

議題一：Spark SQL: Past, Present and Future

講師簡介：範文臣，來自美國 Databricks 公司，Apache Spark PMC member，Spark SQL 開發團隊成員。2013 年從浙江大學畢業後，一直在進行分散式系統相關的工作。2014 年開始接觸 Spark，並成為最活躍的代碼貢獻者之一。2015 年正式加入 Databricks，成為 Databricks 中國分部（籌建中）的第一名員工，主要負責開源社區方面的工作，例如：審查其他社區成員提交的 PR，主導 Spark SQL 一些主要功能的設計和研發，定期審計項目代碼質量等。

議題摘要：Spark SQL 作為 Spark 的基礎框架，已經有了廣泛的用戶基礎，並且經歷了一段漫長的開發歷史。本次議題將會帶領大家回顧一下 Spark SQL 的演進歷史，以及目前的現狀，和未來的一些展望，幫助大家更好的理解 Spark SQL 的一些設計決策以及使用場景。

議題二：CarbonData 應用實踐 +2.0 新技術規劃介紹

講師簡介：李昆，Apache CarbonData committer，華為技術有限公司大數據軟體架構師。2004 年加入華為，長期從事電信協議、業務智能化、數據可視化、用戶行為分析等系統研究和開發工作。近年致力於大數據技術研究，參與 Hadoop、Spark、Alluxio 等開源社區，2016 年作為 CarbonData PMC 成員參與 Apache CarbonData 項目孵化，尋求大數據與一站式分析平台的創新機會點。

議題摘要：Apache CarbonData 是一種新的高性能數據存儲，針對當前大數據領域分析場景需求各異而導致的存儲冗餘問題，CarbonData 提供了一種新的融合數據存儲方案，以一份數據同時支持大數據分析的多種應用場景（如：「任意維度組合的數據查詢分析、快速掃描、詳單查詢、數據更新刪除等」），並通過多級索引、字典編碼、列存等特性提升了 I/O 掃描和計算性能，實現百億數據級秒級響應。

CarbonData 開源後，受到全球大數據技術愛好者高度關注；截止到目前為止，全球已有 100+ 開發者參與了代碼貢獻，有 10+ 家企業上線生產系統。本次演講主要介紹 CarbonData 應用實踐以及 2.0 新技術規劃，幫助大家更好地應用 CarbonData 技術。

議題三：Spark 2.2 核心特性 CBO 介紹

講師簡介：王振華，現任華為公司研究工程師，Apache Spark 核心 Contributor， CBO 主要開發者，致力於構建高性能大數據查詢分析平台。在此之前，博士畢業於浙江大學計算機科學與技術學院，研究方向涉及空間資料庫、信息檢索、數據挖掘。

議題摘要：在 Spark SQL 的 Catalyst 優化器中，許多基於規則的優化技術已經實現，但優化器本身仍然有很大的改進空間。例如，沒有關於數據分布的詳細列統計信息，因此難以精確地估計過濾（filter）、連接（join）等資料庫操作符的輸出大小和基數 (cardinality)。由於不準確的估計，它經常導致優化器產生次優的查詢執行計劃。

在 Spark 2.2 中，在 Spark SQL 引擎內添加了一個基於成本的優化器框架，此框架計算每個資料庫操作符的基數和輸出大小。通過可靠的統計和精確的估算，能夠在這些領域做出好的決定：選擇散列連接（hash join）操作的正確構建端（build side），選擇正確的連接演算法（如 broadcast hash join 與 shuffled hash join），調整連接的順序等等。在這次演講中，將展示 Spark SQL 的新的基於成本的優化器框架及其對 TPC-DS 查詢的性能影響。

議題四：CarbonData 重要特性 Partition+ 上汽集團實踐 CarbonData 分享

講師簡介：曹魯， Apache CarbonData 核心 Contributor， partition 主要開發者，現任上汽集團數據業務部大數據平台開發經理。目前主要專註於大數據平台架構，數據存儲、壓縮、索引以及實時流數據處理等領域的研究及應用。曾負責某金融行業公司 ETL、BI 系統開發，某互聯網電商公司的數據倉庫容量管理、性能調優等。熱衷開源技術研究，Apache CarbonData 社區貢獻者。

議題摘要：CarbonData 的 partition 特性將在 Apache CarbonData 1.2.0 版本里正式發布，此特性將顯著提升大數據查詢性能。上汽集團大數據將 CarbonData 作為平台基礎組件，以應對迅猛增長的數據量，本議題將分享上汽集團在 CarbonData 項目的實踐和測試數據。

免費報名地址

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 InfoQ 的精彩文章:

※騰訊遊戲容器雲平台的技術演進之路
※FreeWheel前後端分離改造實踐
※測試已死？我看未必！
※1小時上手 TensorFlow 深度學習應用

TAG:InfoQ |

您可能感興趣

※蘋果確認使用Google雲存儲部分 iCloud 數據
※Redis 數據類型
※Python數據處理實戰——使用Scikit-Learn進行多類文本分類
※FB及Cambridge Analytica因用戶數據泄露事件面臨訴訟
※Perl 數據類型
※使用Alluxio加速基於Ceph對象存儲的數據分析
※Facebook力推VPN應用，可收集用戶隱私數據
※透析Facebook事件，對AI行業數據合規的思考
※通過區塊鏈構建分散式信用數據體系，Distributed Credit Chain打造去中心化的金融生態系統
※三星推出適用於Android數據保護和隱私保護Samsung Max應用程序
※Twitter 開源數據分析工具——tinfoleak
※基於Markov Chain Monte Carlo的智能手錶睡眠數據分析
※Google收購Cask Data，進一步強化大數據分析能力
※「Python」Chapter1 變數和簡單數據類型
※MySQL官方Docker鏡像的數據存儲問題
※你的iCloud數據可能存儲在Google Cloud中
※TalkingData：曝光iPhoneX真實在用量數據
※LeicaTS系列全站儀數據傳輸方法及Leica Geo Office軟體的應用
※黑客出售黎巴嫩間諜軟體DarkCaracal，竊取全球Android手機、WindowsPC數據
※RocksDB數據存儲格式分析