當前位置:
首頁 > 科技 > 掘金數據科學市場 NVIDIA RAPIDS通過GPU加速價值實現

掘金數據科學市場 NVIDIA RAPIDS通過GPU加速價值實現

至頂網伺服器頻道 12月04日 新聞消息(文/李祥敬):在這個數據無處不在的時代,如何從數據中獲取價值成為企業的重要課題。有數據顯示,面向數據科學和機器學習的伺服器市場每年價值約為200億美元,加上科學分析和深度學習市場,高性能計算市場總價值大約為360億美元,且該市場還在持續快速發展。

掘金數據科學市場 NVIDIA RAPIDS通過GPU加速價值實現

打開今日頭條,查看更多圖片

在NVIDIA看來,數據分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現加速。NVIDIA解決方案架構與工程團隊副總裁Marc Hamilton告訴記者,數據科學在2010年變得非常興盛,但是那個時候CPU的計算力已經沒辦法滿足數據科學家的需求了。數據規模越來越大,但是計算力並沒有相應發展,等待時間也是越來越長。於是,NVIDIA推出了開源GPU加速平台——RAPIDS,為數據科學家提供標準化的流水線式工具。

在當前的人工智慧浪潮中,深度學習與機器學習是兩個重要的技術。在Marc看來,深度學習在處理非結構化數據(比如語音、圖像等)上的效果更好,而機器學習卻在結構化數據處理上效果更好。RAPIDS把深度學習的能力擴展到了大數據領域。

也就是說,RAPIDS把GPU最為擅長的深度學習優勢也帶到了機器學習領域,讓企業在處理結構化數據方面與在處理非結構化數據方面同樣獲得GPU的加速。據悉,最初的RAPIDS基準分析利用了XGBoost機器學習演算法在NVIDIA DGX-2系統上進行訓練,結果表明,與僅有CPU的系統相比,其速度能加快50倍。這可幫助數據科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘。

RAPIDS平台通過加速cuDF、cuML、cuGRAPH庫,英偉達能夠讓GPU加速計算應用到更多機器學習的演算法與場景當中,為數據科學家提供標準化的流水線式工具。比如在數據處理方面,RAPIDS將會通過數據準備、數據合併、數據降維三個步驟加速處理數據。

Marc表示,RAPIDS底層由CUDA支撐。他強調,RAPIDS加速有不同方式,一種方式是在CUDA上對軟體進行重新編程,第二種方式是使用CUDA軟體庫、cuML及機器學習的軟體庫,用來加速XGBOOST。第三種加速方式是在軟體應用層面的加速,比如:SAP或者Oracle的某些軟體功能已經可以通過GPU加速。

RAPIDS採用了開源的方式,可以非常完美地運行在GPU雲平台,數據科學家只需要下載RAPIDS代碼,就可以使用機器學習,不需要對現有代碼進行太多修改。而且RAPIDS會保持不斷更新,用戶也可以將自己的需求反饋給NVIDIA,新的功能會不斷加入到新版本中,滿足用戶的需求。

目前英偉達正在廣泛地與開源生態系統貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight等,將更多的機器學習庫和功能引入RAPIDS。為了推動RAPIDS的廣泛應用,英偉達正努力將RAPIDS與分析及數據科學方面領先的開源框架Apache Spark進行整合。

在落地應用方面,RAPIDS目前已經被非常廣泛採用,比如華大基因、中國移動、平安科技等中國公司都宣布引入它進行機器學習加速。例如,平安科技使用RAPIDS以及GPU加速的PCA和DBSCAN之後,工作流程執行速度加快了80倍,從幾天縮短到幾小時(包括數據載入和訓練時間),這有助於該公司主動做出預測並完善預防計劃。

華大基因使用XGBoost機器學習演算法,對用於癌症患者個性化免疫治療的靶向多肽進行分類。他們在NVIDIA DGX-1 AI超級計算機上運行RAPIDS平台,將分析速度提高了17倍,並將多肽的分析範圍擴大至數百萬種。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

全年盤點:2018年最炙手可熱的網路安全初創公司
萬豪國際集團遭遇數據大規模泄露 涉及五億客戶信息

TAG:至頂網 |