當前位置:
首頁 > 新聞 > 騰訊雲機器學習平台技術負責人黃明,詳解DI-X 深度學習平台

騰訊雲機器學習平台技術負責人黃明,詳解DI-X 深度學習平台

機器之心原創

作者:高靜宜



3 月 28 日,騰訊雲宣布推出深度學習平台 DI-X(Data Intelligence X),為機器學習、深度學慣用戶提供一站式服務,為其在 AI 領域的探索降低門檻並提供最流暢的體驗。DI-X 平台基於騰訊雲的大數據存儲與處理能力,集成 Caffe、TensorFlow、Torch 主流深度學習框架,主打行雲流水的拖拽式操作,具備強大的業內開源及騰訊自研演算法庫和模型庫。DI-X 平台的推出是騰訊在 AI 領域長線布局中不可缺少的一環,也宣告騰訊雲在 AI 布局的全面加速。

人工智慧學習平台已然成為巨頭公司的必爭之地。在 3 月 29 日的雲棲大會上,阿里雲也正式推出了升級版機器學習平台 PAI 2.0。那麼,DI-X 平台可以為用戶帶來哪些便利,有怎樣的戰略意義,在激烈的商業競爭和技術競賽中如何突出重圍?機器之心對騰訊 T4 專家、騰訊雲機器學習平台技術負責人黃明進行了採訪,從中得到了答案。

機器之心:深度學習平台不是一個新鮮概念,國內外一些公司早已嘗試研發深度學習平台,部分公司已見成效。能否介紹一下為什麼選擇在這個時候推出這款基於騰訊雲的深度學習平台 DI-X 嗎?

黃明:與騰訊雲許多優勢產品與能力一樣,DI-X 平台經歷了由內而外的輸出過程。隨著機器學習與人工智慧的發展,騰訊內部需要一個平台,支持內部演算法工程師和數據科學家的迫切需求,DI-X 應運而生,並成為主要機器學習平台,每天有上萬的機器學習任務流,在上面運行各種演算法,並訓練出各種各樣的模型。歷經一年多的實戰。隨著系統的成熟和外部需求的增加,騰訊雲決定對外開放這一能力。

機器之心:騰訊雲一直致力於降低人工智慧雲服務的使用門檻,曾推出大數據服務平台數智方略,並於去年年底發布萬象優圖服務。推出騰訊雲深度學習平台的戰略目標是怎樣的?

黃明:隨著 DI-X 平台的發布,騰訊雲在 AI 領域的全線布局也浮出水面:從 IaaS 基礎設施、AI 平台服務、AI 基礎服務、AI 應用服務,到垂直行業解決方案,均有完善的產品及服務覆蓋。馬化騰曾表示:「人工智慧、物聯網,甚至未來的無人駕駛、機器人等等,它的後台的核心一定有一顆在雲端的大腦。」DI-X 平台的推出,為企業構建「雲上大腦」提供最強助力,此舉也宣告騰訊雲在 AI 的布局全面提速。特別是騰訊雲的中小用戶,可以快速接入 AI 的快車道。

騰訊雲機器學習平台技術負責人黃明,詳解DI-X 深度學習平台

騰訊雲 AI 產品服務矩陣圖(2017 年 3 月)

機器之心:能否介紹一下 DI-X 的研發團隊?整個研發歷經了怎樣的過程?在技術層面來說,深度學習雲平台的研發難點在哪裡?又是如何解決的?

黃明:DI-X 項目是由騰訊雲的數據產品團隊和騰訊數據平台部的機器學習團隊聯合而成,人不多,就十幾個。我們相信小團隊比較進行適合快速的迭代,產品現在還很年輕,需要快速的成長。整個項目是在騰訊內部先鍛煉了 1 年多,快速迭代了 3 個大版本,十幾個小版本,有了一定的用戶基礎和不錯的口碑後,再到雲上來的,我們希望把騰訊的 AI 能力開放給更多的中小公司。

這個平台是一開始就是要服務內部用戶的,所以會面對很多用戶奇奇怪怪的需求,而這時如何去將這些需求,化解為真正對平台有通用意義的功能,是需要有很強的理解力和把控力的,這個是對這個產品最大的挑戰之一。

這個平檯面對的另外一個挑戰,就是機器學習,尤其是人工智慧和深度學習發展太快了,很多新的功能和需求,不停的出現,也有新的更好的平台值得借鑒。我們需要更快的走完前人走的路,還要跟上後來者的節奏,這個對團隊的快速迭代能力,也有很高的要求。

機器之心:有一個用戶非常關心的問題:目前 DI-X 平台支持哪些深度學習模型框架?平台兼容性如何?

黃明:DI-X 第一個版本支持 TensorFlow,Caffe,Torch 這三個深度學習框架,都會是和開源的最新版本一致和兼容,主要的改動是無縫對接了騰訊雲的對象存儲 COS,可以將其之上的圖片,語音,視頻等作為輸入數據源,供組件和演算法直接訓練,生成模型,釋放用戶的數據資源潛力。另外第一個版本,不會支持多機多卡的並行化,預計會在第三個版本支持。

機器之心:可否介紹一下此次推出的騰訊雲深度平台 DI-X 具備怎樣的亮點?在激烈的行業競爭中,DI-X 平台具備哪些優勢?可以實現哪些功能?解決哪些問題?

黃明:DI-X 平台目前有這樣的產品特點:

  1. 深度學習支持:目前支持 TensorFlow,Caffe,Torch 三種框架組件,後續會提供更多深度學習框架和針對性優化

  2. 易用性:可視化的拖拽式任務流設計界面,配備了輸入,組件,演算法,模型,輸出五類模塊,靈活組合,可以做到無須任何編碼而完成複雜機器學習任務

  3. 靈活性:用戶既能使用內置的機器學習演算法,也能在各種深度學習組件上提交自己演算法

  4. 集成性:與騰訊雲的對象存儲(COS),計算(GPU 計算平台)無縫對接,公有雲用戶可輕鬆閉環

  5. 全流程:集模型訓練,預測,部署的功能於一體,並提供公共數據集和業界模型,幫助用戶快速釋放數據價值

我們希望,用戶可以在這個平台上,完成深度學習的模型訓練,調優,部署,預測等各種功能,體驗一站式的深度學習服務

機器之心:DI-X 平檯面向什麼樣的用戶群?如何滿足不同領域用戶的需求?

黃明:DI-X 面對的是有一定深度學習基礎知識的用戶,有一定的門檻。用戶可能在對象存儲 COS 上,已經存了很多的非結構化數據(圖片,語音,視頻),這些都是寶貴的資產,想要進行一些人工智慧方面的研究和工作,這時,用戶可以先購買騰訊雲的 GPU 計算平台,然後通過 DI-X,非常快速的開始跑深度學習的演算法,完全跳過繁瑣的配置過程。

另外,DI-X 當然內置了一些常用的深度學習演算法,公開數據集和業界模型,方便用戶直接拖出來,簡單配置即可運行,這樣可以更加快速驗證一些有趣的想法。這些都是不限制領域的,通用的,相信能夠滿足大部分用戶的需求。

機器之心:能否具體闡述一下用戶在使用 DI-X 平台的過程中,會帶來哪些不同於使用以往雲平台的體驗?

黃明:DI-X 是個比較新的平台,所以參考了很多現有平台的設計。其中有一些是之前的產品就有的,例如拖拽式的可視化設計,這個整體理念是一致的。但是有一些特色功能,是目前其他平台沒有或者做得比較弱的,例如:

1. 比較靈活

各種框架組件都支持用戶上傳自己的腳本和模型網路結構,不過多的約束用戶。在任務流的設計上,也主張讓用戶有更多的自主權,不做過多的約束。當然,數據流我們是支持的。

2. 支持多實例運行

每個任務流都可以多實例運行的,當然了,會有實例數的約束。實例的啟動支持周期性調度和指定時間調度等多種方式,而且每個實例都有一個快照頁面,能方便的查看各個實例的運行情況和結果。

3. 能進行自動化參數調節

支持多個參數(目前最大五個)按照一定的初始值,步長,終值進行循環組合,動態替換輸入框和模型網路文件中的參數,自動化跑多個實例,並能同時展現多個模型的最終效果,方便用戶比較。

4. 模型的訓練和使用

演算法和模型上,DI-X 有個「小尾巴」的設計,不同於現有的平台,對深度學習的演算法和模型,有更好的可用性和擴展性,能更好的用於模型的預測。

以上的體驗,都是在內部反覆打磨過,在細節上花了很多的心思,希望能夠給外部用戶,帶來一些不一樣的感覺。

機器之心:雲平台安全問題一直是用戶關注的焦點,DI-X 平台為保障數據和代碼機密性做出了怎樣的努力?

黃明:DI-X 的底層是基於 Docker 改進的,所以用戶之間的進程和訪問,有著良好的隔離,對象存儲 COS 的數據訪問也是獨立的,不會有代碼泄漏和數據泄漏的風險。

機器之心:深度學習作為近年來的主流人工智慧演算法,是國內外互聯網巨頭公司爭相部署的重點領域。在 2014 年,騰訊就曾推出了一款深度學習平台 Mariana,包括針對 DNN 的 GPU 數據並行,CNN 的 GPU 數據並行和模型並行,DNN GPU 集群的三個框架。那麼這次所推出的基於騰訊雲的深度平台與 Mariana 平台有什麼聯繫?對於騰訊在深度學習領域的戰略布局有什麼意義?未來在這個領域又有怎樣的推進計劃?

黃明:Mariana 是在內部 DI-X 上,也是深度學習的一個組件,後續我們會整合到之前宣布要開源的 Angel 框架中,一起發布。DI-X 在騰訊的深度學習領域布局中是重要的一環,它讓中小用戶可以在騰訊雲之上,輕鬆自主的開發和部署他們的深度學習演算法和模型,接入 AI 的快車道。而騰訊雲後續也可以在這個平台上,進一步開放更多的優秀演算法和模型,提供全面的 AI 服務。

機器之心:這款深度學習平台還有哪些需要優化和改善的地方?未來打算如何解決?

黃明:DI-X 是很新的一個平台,深度學習和人工智慧也都在飛速發展中,有很多的東西需要改進,例如可視化的定義模型的網路結構等。未來我們會快速的迭代和更新,來滿足用戶的需求。

機器之心:今年 1 月 20 日,騰訊就看中 FPGA 在實現深度學習技術的巨大潛力,推出國內首款 FPGA 雲伺服器,從底層加速雲計算在各場景中的應用,引起業內熱議。目前,用戶對於 FPGA 雲伺服器的使用效果及反響如何?

黃明:用戶的反響非常好,主要來自幾個方面:首先,試用成本低,可以按需購買 FPGA 雲伺服器,不用再投入大量資金購置物理伺服器;其次,部署時間短,以前部署開發的時間從數年或數月縮短到數天;最後,運維成本低,由騰訊雲負責了運維的工作,用戶降低了維護 FPGA 的人力和成本。

機器之心:騰訊雲的企業客戶可以按需付費使用 FPGA,那麼一個典型客戶一年大概需要花費多少錢?相比以往,有成本優勢嗎?

黃明:通過 FPGA 雲伺服器,企業可以進行 FPGA 硬體編程,可將性能提升至通用 CPU 伺服器的 30 倍以上,而只需支付相當於通用 CPU 約 40% 的費用。騰訊雲是國內首家在雲端開放 FPGA 計算服務的雲服務商。

機器之心:開放 FPGA 使用申請的進展如何?

黃明:當時這則消息在騰訊與公眾號發布後的幾小時,騰訊雲就收到了數百名開發者的試用申請以及一些大客戶的諮詢。目前客戶非常多,主要來自高校、研究所、基因計算、金融分析等行業。

機器之心:騰訊雲將 FPGA 部署時間從數月縮短到數分鐘,能否分享一下這樣的一個突破性進展背後解決了哪些技術難題?

黃明:騰訊雲主要解決了 FPGA 的 3 項技術難題:

  1. 將 FPGA 設備規格精簡到幾種,減少用戶部署時的移植開發。

  2. FPGA 開發可分為平台和業務兩部分內容。騰訊雲提供通用、可靠的平台部分。平台部分包括 PCIE、DMA、DDR 訪問等硬體邏輯,驅動和應用軟體編程 API 等軟體部分。用戶只需要關注業務部分的軟體實現,減少了平台部分的工作和調試時間。

  3. 用戶可以在騰訊雲上將部署好的環境打包成鏡像,藉助騰訊雲的平台一鍵部署。

騰訊雲機器學習平台技術負責人黃明,詳解DI-X 深度學習平台

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

谷歌全端到端語音合成系統Tacotron:直接從字元合成語音
資源|價值迭代網路的PyTorch實現與Visdom可視化
紐約客特稿|把癌症診斷交給機器,醫療服務會更好嗎
用自然語言教育AI:百度演算法發展出zero-shot學習能力
從演算法平台到機器視覺和語音識別,優必選全面布局人工智慧

TAG:機器之心 |

您可能感興趣

機器學習平台痛點與模型提升方法:基於Spark的機器學習平台在點融網風控應用介紹
微軟推出深度學習加速平台腦波計劃:FPGA驅動實時人工智慧
Python趕超R語言,成為數據科學、機器學習平台中最熱門語言?
銳成芯微超低功耗IP平台助力中興微NB-IoT商用晶元性能卓越
騰訊遊戲容器雲平台的技術演進之路
Python趕超R語言,成為數據科學、機器學習平台中最熱門的語言?
騰訊WeGame的野心:試析PC遊戲平台化趨勢
阿里發布的機器學習平台 PAI2.0,和騰訊的 DX-I 區別在哪?
聯想拯救者銳龍平台電競主機極MAX評測
華為雲與達索系統合作推進3DEXPERIENCE平台上雲服務行業客戶
企業應該怎樣選擇數據科學和機器學習平台?
創建科技創新中心平台昌平未來科學城將搭建氫能技術協同創新平台
全方位的一站式平台 騰訊WeGame平台體驗
AMD銳龍平台的吃雞選擇 強力遊戲平台
百度開放無人駕駛平台Apollo 人工智慧AI技術落地商用
企業應該怎樣選擇數據科學&機器學習平台?
WCA賽事平台精英賽DOTA2 A組:CG展現騎士精神
前IBM Watson首席科學家周伯文博士加盟京東擔綱人工智慧平台研發
百度成立AI技術平台體系 王海峰任總負責人