當前位置:
首頁 > 知識 > 歷時半年,Apache Spark 2.2終於脫掉了「實驗」的帽子,可用於實際生產環境

歷時半年,Apache Spark 2.2終於脫掉了「實驗」的帽子,可用於實際生產環境

敲黑板!!!知識點來了:Apache Spark 2.2終於脫掉了「實驗」的帽子,可用於實際生產環境。Spark 2.2最大的亮點就是Structured Streamin,它是用於構建Apache Spark 2.0中引入的連續應用程序的高級API,允許應用程序實時做出決策。 根據博客內容,Databricks公司的目標是「更易於構建端到端的流應用程序,以一致和容錯的方式與存儲、服務系統和批處理作業集成。」

歷時半年,Apache Spark 2.2終於脫掉了「實驗」的帽子,可用於實際生產環境

結構化流媒體現在有了一些更高層次的變化:

  • Kafka SourceSink 支持 以流式或批量的方式從Apache Kafka中讀取和寫入數據

  • Kafka Improvements 緩存的生產者,從低延遲Kafka到Kafka流

  • Additional Stateful API 使用[MapGroupsWithState支持複雜的狀態處理和超時處理

  • Run Once Triggers 允許觸發僅一次執行,從而降低集群成本

Apache Spark 2.2概述

SQLCore API

Apache Spark 2.2增加了許多SQL功能:

API更新: 統一數據源和hive serde表的CREATE TABLE語法,並為SQL查詢添加廣播提示,如BROADCAST,BROADCASTJOIN和MAPJOIN

總體性能和穩定性:

  • 基於成本優化器的過濾、連接、聚合、項目和限制/樣本運算符的基數估計以及基於成本的連接重新排序

  • 使用星型模式的TPC-DS性能提升

  • CSV和JSON的文件列表/ IO改進

  • 支持HiveUDAFF功能的部分聚合

  • 引入基於JVM對象的聚合運算符

其他顯著變化:

  • 支持解析多行JSON和CSV文件

  • 分析分區表上的表命令

MLlibSparkR

MLlib和GraphX中添加了這些新演算法:

  • Locality Sensitive Hashing

  • Multiclass Logistic Regression

  • Personalized PageRank

Spark 2.2還增加了對SparkR中分布式演算法的支持:

  • ALS

  • Isotonic Regression

  • Multilayer Perceptron Classifier

  • Random Forest

  • Gaussian Mixture Model

  • LDA

  • Multiclass Logistic Regression

  • Gradient Boosted Trees

  • Structured Streaming API for R

  • column functions to_json, from_json for R

  • Multi-column approxQuantile in R

Databricks軟體工程師Xiangrui MengMLlib的 使命 是讓機器學習變得容易和可擴展。我們希望使數據科學家和機器學習工程師都能夠輕鬆構建真實的機器學習(ML)管道。Spark MLlib讓數據科學家和機器學習工程師的生活更輕鬆,從而可以專註於建立更好的ML模型和應用。我們也希望MLlib能夠收集擁有更多數據,從更大規模的數據集中學習和挖掘更多價值。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

一周年:程序員如何看Eclipse MicroProfile?

TAG:IT168企業級 |

您可能感興趣

2018 款 MacBook Pro 的實際體驗如何?
國產最旗艦手機華為mate10/mate10 Pro實際體驗到底如何?
華為mate20pro對比蘋果xr,價格差不多,實際卻被吊打
Marvel 影迷推論 Dr. Strange 在《Avengers: Endgame》的實際計劃
Nidhogg 2似乎是Switch的完美搭配,實際上它正在發生
Steam Link App介紹與實際體驗
為什麼iPhone 8 Plus實際體驗比iPhone X更好?
Mate20 Pro/蘋果Max性能PK:華為實際速度更快
AT&T的「5G Evolution」網路實際速率被發現低於現有4G網路
價值 5 萬的 MacBook Pro,實際表現又如何呢?
四分之一的Google Duplex電話實際上由人類完成
fate,saber 的人氣實際上並不高,大帝將其完爆
明基 Screenbar plus,逃不過真香警告的實際體驗
Android 9 Pie證明Android的更新情況實際上越來越好
一台價值 5 萬的 MacBook Pro,實際表現又如何呢?
在等Switch版《伊蘇9》?實際上Falcom根本沒有這個能力
不一樣的輕薄,AMD銳龍版聯想ideapad 720S實際體驗感覺如何?
三星Galaxy Tab S4實際操作回顧
以為iPhone X只賣8388?實際價格扎心了!
銀河護衛隊2中的Baby Groot實際上是Groot的兒子