英偉達RAPIDS深度解讀:深度學習很重要,但是還不夠
智東西(公眾號:zhidxcom)文 | Lina
智東西11月21日蘇州報道,在英偉達GTC China的年度大會上,智東西與少數媒體一同採訪了英偉達解決方案架構與工程團隊副總裁Marc Hamilton,深入講解了英偉達RAPSID開源GPU加速平台。
英偉達解決方案架構與工程團隊副總裁Marc Hamilton
RAPSID發佈於2018年10月10日的GTC Europe大會上,是一款針對數據科學和機器學習的GPU加速平台,它為數據科學家提供標準化的流水線式工具,數據處理速度較僅用CPU提升50倍。
一、深度學習很重要,但是還不夠
在過去幾年的人工智慧大潮當中,深度學習(Deep Learning)成了最火熱的話題之一。作為機器學習(Machine Learning)的一個分支,它幾乎成為了AI的代名詞,在AI安防、語音等方面大放異彩。
然而,深度學習有著它的局限性。深度學習在處理非結構化數據(比如語音、圖像等)上的效果更好,而機器學習卻在結構化數據處理上效果更好。
在某些相對複雜的場景里,深度學習往往不足以完成任務,需要引入其他機器學習技術。
舉個例子,目前,在銀行、零售店、醫療等行業中有大量結構化數據,比如個人消費經歷、庫存、電子病歷等。越來越多的企業希望從這些數據中挖掘出價值,反向優化自己的運作流程。
然而隨著數據量的不斷增加,數據科學家們在處理這些信息時所需要的時間也越來越長。
在過去6年里,英偉達投入了大量的資源與精力進行深度學習的相關研發,也取得了很不錯的成功。然而,對於除了深度學習之外的很多機器學習演算法,GPU卻不能很好地支持。
這張圖裡是一個普通英偉達數據科學家的一天,我們可以從圖裡看到,在不同的數據處理之間有著大量的休息時間(藍綠色部分,一般他們用這個時間來喝杯咖啡),然而由於事情還沒有做完,所以他們晚上通常還要加會班,工作效率非常低。
二、推出RAPIDS開源GPU加速平台
為了改變這一現狀,在今年10月的GTC 2018歐洲站上,英偉達推出了其機器學習開源GPU加速平台——RAPIDS。
Marc Hamilton表示,數據科學家不需要大量修改自己的演算法,只需要在自己現有的機器學習演算法上進行少量調整——比如「加入三行代碼」,就可以基於RAPIDS進行機器學習演算法的加速。
RAPIDS平台通過加速cuDF、cuML、cuGRAPH庫,英偉達能夠讓GPU加速計算應用到更多機器學習的演算法與場景當中,為數據科學家提供標準化的流水線式工具。
比如在數據處理方面,RAPIDS將會通過數據準備、數據合併、數據降維三個步驟加速處理數據。
此外,RAPIDS開源GPU加速平台構建於Apache Arrow、pandas和scikit-learn等流行的開源項目之上,能夠為最流行的Python語言來了GPU提速。
支持RAPIDS的企業、雲服務平台等
RAPIDS目前已經被非常廣泛的採用。
三、快速進行AI流感疫情爆發檢測
在今天的GTC China主論壇演講上,黃仁勛表示,RAPIDS目前已經被非常廣泛的採用,比如華大基因、中國移動、平安科技等中國公司都宣布引入它進行機器學習加速。
華大基因用RAPIDS進行癌症基因檢測、中國移動用它進行優化無線網路——這個在5G時代至關重要、平安科技則用它來模擬大型疫情爆發情況。
Marc Hamilton進一步介紹了利用RAPIDS來模擬檢測流感疫情爆發情況的經過。
在流感季節,各個國家的政府衛生部門都會從醫院、醫生、患者處收集數據,找出疫情的傳播原因與傳播規律。
然而,對於中國這種人口大國來說,這項工作的一大挑戰就是數據量過於龐大,如果要從中找出規律,可能要需要長達4個月的時間——這時流感季節早就結束了。
而基於英偉達RAPIDS平台,數據處理速度可以較僅用CPU提升50-100倍,這項工程可以被縮短到幾天甚至幾個小時的時間,快速找到疫情的傳播原因與傳播規律。
※AI早報:ARM推AI平台周易,進博會每天30萬人刷臉安檢
※被低估的換代和蘋果野心!iPhone XS Max體驗
TAG:智東西 |