對話戴金權:英特爾如何構建軟硬體協同統一的大數據分析+AI平台?
雷鋒網消息,在2019全球人工智慧技術大會主論壇,英特爾高級首席工程師、大數據技術全球CTO戴金權發表了題為「如何構建統一的大數據分析+AI平台」的演講,英特爾的硬體能力不必贅述,這次英特爾則著重展示了軟硬協同能力,尤其是人工智慧開源軟體平台Analytics Zoo。
戴金權表示,英特爾致力於提供從設備端到邊緣再到數據中心、雲端完整的計算架構,比如在數據中心,英特爾至強系列伺服器是AI應用分析的基礎架構,同時也提供了多種神經網路處理器等硬體架構。
打開今日頭條,查看更多圖片
英特爾開源AI軟體版圖
如上圖所示,這是英特爾使用開源AI軟體加速開發的版圖,他強調,英特爾致力於提供全棧的解決方案,從最底層的演算法開源項目幫助用戶更高效開發計算庫,再到上層各種機器學習或者深度學習的框架,再到最上層,英特爾也提供了一些開源工具包,目的是幫助應用開發人員更高效的開發基於深度學習的應用。
趨勢 | 大數據分析和AI平台融為一體據雷鋒網了解,業內大數據分析和AI平台產品並不少,英特爾這類將大數據分析和AI平台融為一體的模式正成為行業新趨勢。
第一,對於大多數用戶來說,尤其在生產系統當中,基於Apache Spark這樣的大數據集群仍然是所有的生產數據以及包括大量硬體資源的聚集地,如何更高效利用生產數據以及硬體資源,能夠將新的人工智慧的應用支持起來成為新挑戰。
第二,要構建一個工業級端到端的大數據分析+人工智慧應用,並不是說訓練一個模型就可以完成的事情,其是一個非常複雜的流水線或者工作流。從數據的收集、導入、處理、特徵的提取、各種模型的構建訓練,到最後的部署、推理等等,是一個非常複雜的工作流。
「我們能夠幫助用戶可以將這一個樣端到端的大數據處理分析加上機器學習的工作流能夠非常方便地構建出來,從而大大能夠提高了用戶的開發效率、部署效率和運維效率」,戴金權介紹道。
與過去數年相比,深度學習和人工智慧應用場景更加廣泛,要處理的數據也更加廣泛,所以客觀要求使用者構建端到端的大數據處理分析加上機器學習、深度學習的統一流水線。英特爾觀察到,客戶有越來越多的類似需求。
「我們有很多用戶是來自於很多非常大的互聯網公司或者是大的企業裡面的傳統實驗室,他慢慢的也會發現,當構建了一些人工智慧深度學習的框架和模型之後,怎麼樣能夠很好的真正跑到生產系統上去,能將生產數據在上面跑起來。這是用戶來使用英特爾Analytics Zoo一個很重要的出發點。」
此外,Analytics Zoo的用戶也不乏硬體的OEM的廠商、軟體提供商、公有雲服務商等,英特爾現場展示出的客戶包括浪潮、寶信、戴爾、阿里雲和騰訊雲等。
核心 | 端到端應用場景塑造
從深度學習模型到一個完整的工業級應用要多少步驟?如上戴金權在現場展示的PPT,黑色部分是核心的深度學習模型,但是周邊有很多工作要完成,才能使之運行起來。
深度學習的模型只是整個流程的一部分,要構建和應用深度學習模型,還有數據的導入、數據清洗、特徵提取、對整個集群的資源的管理和各個應用之間對這個資源的共享等,這些工作事實上佔據了機器學習或者深度學習的一個工業級應用開發大部分的時間和資源。所以,數據處理、機器學習,以及演算法必須很好地和現有的大數據處理的工作流整合在一起。
這也是構建一個端到端的應用場景所面臨的問題,在沒有一個統一的大數據分析+AI平台之前,需要人工把很多不同的框架拼湊起來。
另外很多用戶開發一般都是從單機開始,當需要處理更多數據的時候,就需要跑到一個大規模分散式環境,甚至到一個生產環境里去。
從Analytics Zoo的角度,第一,英特爾能夠將不同的框架無縫的集成到流水線裡面去,通過在軟體層上面各種新的支持或者功能,能夠將TensorFlow、Spark能夠非常無縫的集成在一個程序裡面,在一個Spark程序裡面直接嵌入TensorFlow的Code,然後一起運行起來,這其實對很多用戶來說很有吸引力。
第二是在開發過程中,因為底層運行在Spark這樣的引擎上,上面可以嵌入各種深度學習的功能,它可以運行在一個單機的環境,也可以跑到一個分散式環境裡面去,用戶也可以直接訪問生產數據。
「很多用戶之所以想用Analytics Zoo,就是它可以直接構建端到端的,跟生產系統幾乎一致的原型。這是我們的一個主要出發點,可以幫助用戶將整個的大數據分析+人工智慧的應用很方便的將端到端的流水線構建出來,而且它可以很方便的從用戶的筆記本運行到集群、運行到用戶的生產環境當中去,這是英特爾在底層Analytics Zoo這個平台里所做的工作」,戴金權總結道。
Analytics Zoo是為了大數據平台所優化的,今天大數據平台基本都運行在非常大規模的英特爾至強處理器上,或許是幾十、幾百、幾千個節點,但是英特爾使用了大量的底層優化的框架和庫,像MKL-DNN、OpenVINO等等,將來會通過英特爾One API這樣的生態系統輸出。
戴金權提到,當在英特爾的生態系統上構建一個人工智慧開發平台時,帶來的好處就是底層能夠支持英特爾各種硬體的加速,不管是至強伺服器,包括像Movidius、FPGA,神經網路處理器,還有將來的獨立顯卡,都可以通過One API下面的底層生態系統來給上層的平台和應用所使用。
雷鋒網總結,Analytics Zoo能夠將各種不同的模塊不同的框架下統一到一個端到端流水線上,提高客戶開發部署大數據分析和深度學習的能力,這在如今深度學習或者機器學習越泛化的背景下十分重要,英特爾的工作能夠讓用戶減少人工智慧應用的開發環節,快速推向現實場景。
英特爾高級首席工程師、大數據技術全球CTO戴金權已經確認出席由中國計算機學會主辦,雷鋒網、香港中文大學(深圳)聯合承辦的CCF-GAIR全球人工智慧與機器人峰會。
2019年7月14日,CCF-GAIR 2019 將結合語音、計算機視覺等傳統人工智慧重點方向的研究,以及如在經濟學等領域的新應用,承接歷史與未來、學術研究與產業應用,對世界和中國近四十年來的人工智慧研究進行一個系統性的回顧並展望在當前複雜國際形勢下中國人工智慧的未來發展。
超鏈接:CCF-GAIR 2019 大會官網
※Intel 10 nm 來了!第十代酷睿系列採用全新架構,AI 成最大亮點
※英特爾以數據為中心的競爭優勢是什麼?BATJ有個共同的觀點
TAG:雷鋒網 |