歷時半年,Apache Spark 2.2終於脫掉了「實驗」的帽子,可用於實際生產環境
敲黑板!!!知識點來了:Apache Spark 2.2終於脫掉了「實驗」的帽子,可用於實際生產環境。Spark 2.2最大的亮點就是Structured Streamin,它是用於構建Apache Spark 2.0中引入的連續應用程序的高級API,允許應用程序實時做出決策。 根據博客內容,Databricks公司的目標是「更易於構建端到端的流應用程序,以一致和容錯的方式與存儲、服務系統和批處理作業集成。」
結構化流媒體現在有了一些更高層次的變化:
Kafka Source和Sink: 支持 以流式或批量的方式從Apache Kafka中讀取和寫入數據
Kafka Improvements: 緩存的生產者,從低延遲Kafka到Kafka流
Additional Stateful API: 使用[MapGroupsWithState支持複雜的狀態處理和超時處理
Run Once Triggers: 允許觸發僅一次執行,從而降低集群成本
Apache Spark 2.2概述
SQL和Core API
Apache Spark 2.2增加了許多SQL功能:
API更新: 統一數據源和hive serde表的CREATE TABLE語法,並為SQL查詢添加廣播提示,如BROADCAST,BROADCASTJOIN和MAPJOIN
總體性能和穩定性:
基於成本優化器的過濾、連接、聚合、項目和限制/樣本運算符的基數估計以及基於成本的連接重新排序
使用星型模式的TPC-DS性能提升
CSV和JSON的文件列表/ IO改進
支持HiveUDAFF功能的部分聚合
引入基於JVM對象的聚合運算符
其他顯著變化:
支持解析多行JSON和CSV文件
分析分區表上的表命令
MLlib和SparkR
MLlib和GraphX中添加了這些新演算法:
Locality Sensitive Hashing
Multiclass Logistic Regression
Personalized PageRank
Spark 2.2還增加了對SparkR中分布式演算法的支持:
ALS
Isotonic Regression
Multilayer Perceptron Classifier
Random Forest
Gaussian Mixture Model
LDA
Multiclass Logistic Regression
Gradient Boosted Trees
Structured Streaming API for R
column functions to_json, from_json for R
Multi-column approxQuantile in R
Databricks軟體工程師Xiangrui Meng:MLlib的 使命 是讓機器學習變得容易和可擴展。我們希望使數據科學家和機器學習工程師都能夠輕鬆構建真實的機器學習(ML)管道。Spark MLlib讓數據科學家和機器學習工程師的生活更輕鬆,從而可以專註於建立更好的ML模型和應用。我們也希望MLlib能夠收集擁有更多數據,從更大規模的數據集中學習和挖掘更多價值。
※一周年:程序員如何看Eclipse MicroProfile?
TAG:IT168企業級 |
※2018 款 MacBook Pro 的實際體驗如何?
※國產最旗艦手機華為mate10/mate10 Pro實際體驗到底如何?
※華為mate20pro對比蘋果xr,價格差不多,實際卻被吊打
※Marvel 影迷推論 Dr. Strange 在《Avengers: Endgame》的實際計劃
※Nidhogg 2似乎是Switch的完美搭配,實際上它正在發生
※Steam Link App介紹與實際體驗
※為什麼iPhone 8 Plus實際體驗比iPhone X更好?
※Mate20 Pro/蘋果Max性能PK:華為實際速度更快
※AT&T的「5G Evolution」網路實際速率被發現低於現有4G網路
※價值 5 萬的 MacBook Pro,實際表現又如何呢?
※四分之一的Google Duplex電話實際上由人類完成
※fate,saber 的人氣實際上並不高,大帝將其完爆
※明基 Screenbar plus,逃不過真香警告的實際體驗
※Android 9 Pie證明Android的更新情況實際上越來越好
※一台價值 5 萬的 MacBook Pro,實際表現又如何呢?
※在等Switch版《伊蘇9》?實際上Falcom根本沒有這個能力
※不一樣的輕薄,AMD銳龍版聯想ideapad 720S實際體驗感覺如何?
※三星Galaxy Tab S4實際操作回顧
※以為iPhone X只賣8388?實際價格扎心了!
※銀河護衛隊2中的Baby Groot實際上是Groot的兒子