Pivotal Greenplum 5.3 特性簡介
敏捷的軟體開發是Pivotal的核心業務,也是Pivotal Greenplum創新的主要驅動因素,現在Pivotal Greenplum已經發展到了5.3版本。本文主要介紹Pivotal Greenplum 5.3的功能特性。
一、Greenplum容器化
Greenplum 5.3是一個基礎版本,在我們向未來與Pivotal Container Service (PKS)集成邁進的過程中提供了早期的容器化功能。
完全容器化的 Greenplum 在分析資料庫領域將是獨一無二的,因為許多傳統的數據分析平台都是一體化的,難以抽離。容器化的 Greenplum 將能夠擴展以支持更多用戶、更多工作負載,並減少鄰居資源爭用的影響。它還將給予資料庫管理員(DBA)管理系統的最終控制權,並平衡不同用戶的查詢請求。
Greenplum 5.3提供基礎組件,這些組件通過允許查詢介面(例如符合ANSI的SQL、Python和R)在平台內進行容器化來增強資源隔離和彈性。
查詢容器化
由全新Greenplum 5.3資源組功能提供支持。
這一新功能進一步增強了Greenplum的穩定性和可管理性,同時為多租戶和混合工作負載提供了更豐富的資源隔離。
它提供CPU和內存資源的操作系統級別分組功能,以及可確保每個事務都能達到預定數量的並發事務。
資源組CPU管理建立在Linux控制組(cgroups)基礎上,可向所有組提供良好的隔離和自動突增的CPU資源。
每個資源組的內存分配都會在組和查詢級別預先進行配置。
資源組執行基於事務的並發管理。這使得DBA可以管理並發級別,並為等待進入系統的查詢創建有序隊列。
支持R/Python語言容器化
由全新Greenplum 5 PL/容器(預覽功能)提供支持。
這是可信語言執行引擎的實現,該引擎能夠啟動Docker容器,將執行程序與主機操作系統隔離,從而實現沙箱化。
PL/容器在Docker容器內部運行Python和R代碼。Greenplum內部運行的伺服器端代碼使用RPC協議與容器進行通信。
容器預先配置了Pivotal Greenplum,用於數據科學工作負載,還可以針對不同的最終用戶工作負載從頭開始自定義或構建容器。可以部署多個不同的容器,以適應具有不同要求的不同開發團隊。
二、Greenplum數據生態系統可擴展性
Greenplum 5.3顯著提高了與Apache Hadoop和Apache Spark框架的現有集成水平。
改進了與Hadoop生態系統的集成
Apache Hadoop是一種常見的分散式處理框架,主要部署為大型數據存儲庫(即「數據湖」)。企業正在尋求將數據湖的最佳要素與Pivotal Greenplum等MPP引擎的查詢性能相結合的混合方法,從而實現高級分析。對於這些使用場景,Pivotal Greenplum 5.3提供了Platform eXtension Framework (PXF),這是一種REST API抽象層,使Pivotal Greenplum能夠以高度並行的方式查詢Hadoop數據。
新的PXF集成了來自Pivotal HDB(一種稱為「Pivotal Extension Framework」的功能)的功能,從而為更廣泛的Hadoop生態系統提供Pivotal HDB和數據集成的功能平等性。
藉助PXF,Pivotal Greenplum用戶可以跨平台內的數據和外部Hadoop源進行聯合查詢。這種共生關係可以將數據湖的成本和存儲優勢與Pivotal Greenplum MPP查詢引擎的性能相結合。
PXF包含內置插件,用於訪問HDFS文件、Hive表和HBase表中的數據。專為擴展而設計,用戶可以創建自定義擴展來訪問其他並行數據存儲、處理引擎或文件及存儲格式。
Pivotal Greenplum 和 Apache Spark集成
Apache Spark是用於大數據處理的極為常見且快速的內存中引擎。它提供用於流式處理、SQL、機器學習和圖形處理的內置模塊。數據科學家和數據工程師等Spark用戶希望運行快速的內存中分析、探索性分析和ETL處理,並同時使用Pivotal Greenplum上的數據。用戶將能夠使用Spark JDBC驅動程序來載入和卸載Greenplum中的數據。
Pivotal Greenplum Spark連接器在Greenplum資料庫和Apache Spark集群之間提供高速並行的數據傳輸。
三、Greenplum開源改進
Greenplum 5.3添加了適用於Ubuntu Linux操作系統的Greenplum 資料庫開源二進位文件,因而建立在開源支持基礎上。
Ubuntu上的GPDB開源二進位文件
在Greenplum Database 5.3之前,發行版只能通過Github中的源代碼獲得;但這一切都隨著5.3預先打包的二進位文件發生了改變。
二進位開源選項將為Greenplum社區提供更簡單、更快速、更一致的安裝。
預計這將顯著提高Greenplum(開源版和商業版)的關注度和採用率。
Ubuntu用戶可以使用本地apt-get命令從包含編譯版本的個人軟體包存檔輕鬆安裝Greenplum。
其他功能
最後,Pivotal Greenplum 5.3增加了大量新功能,其中包括:新的備份和恢復實用程序、用於文本搜索的不區分大小寫的模塊,以及我們對SUSE(SLES)12的新企業支持。
新版本的備份和恢復(預覽特性)
新版本Greenplum備份和恢復功能可提供更高的性能,降低在線備份的鎖競爭,提供監控和報告以及其他可配置性選項的進展情況。
新版本Greenplum備份和恢復實用程序包含在在Greenplum 5.3版本中。根據來自Greenplum客戶的大量反饋,我們已經採納了許多針對性能和可用性的建議,以期提供全新的備份和恢復體驗。
提高了性能
支持多個並發備份,從而實現運行時間縮短50%。
元數據備份性能提高了6倍。
提高了壓縮效率,運行時間縮短為原來的1/3。
用戶體驗
減少目錄鎖定,從而減少了與ETL進程的競爭。
提高了監視和日誌記錄的級別。
增加了用於選擇性備份和恢復的對象過濾級別。
提供多種輸出文件格式,幫助從Greenplum的早期版本遷移。
不區分大小寫的文本(citext)模塊
這是從PostgreSQL反向移植的新功能,可實現執行不區分大小寫的文本搜索。它可以比較「cesar rojas」的所有匹配項(「Cesar Rojas」||「CESAR ROJAS」||「cesar rojas」||等)。
這是客戶從Teradata等資料庫遷移到Pivotal Greenplum的重要功能,也是我們Greenplum文本處理策略的關鍵要素。
支持 SLES 12
Pivotal現已為SUSE Linux Enterprise Server (SLES)12 提供Pivotal Greenplum官方支持。由此,Pivotal Greenplum目前也可為Redhat和SUSE的企業發行版提供全面支持。
關於作者
Cesar Rojas是Pivotal Greenplum的產品營銷總監,負責為Greenplum制定宣傳信息和市場營銷策略。在加入Pivotal之前,Rojas曾擔任Teradata Portfolio for Hadoop和Teradata Aster產品的產品營銷總監。Rojas是一位資深分析和數據管理專家,在大型的數據分析公司和成功的數據初創企業有著15年的工作經驗。Rojas從那慕爾聖母大學獲得MBA學位,攻讀方向是電子商務,還擁有計算機工程學科的學士學位。
TAG:Pivotal |