看浪潮如何勇乘AI大勢,玩兒轉智慧計算
提到人工智慧,不僅為生活帶來了巨大的便捷,也大肆湧入企業,推動產業創新。它並不是一夜爆紅,只是在近兩年才得到了迅速發展。
那麼,浪潮具體是對人工智慧如何布局與理解的呢?近日,浪潮在北京舉行了首屆人工智慧計算大會(AI Computing Conference簡稱AICC),會上,本次大會發起人、中國工程院院士、浪潮集團首席科學家王恩東表示,「當前人工智慧計算面臨著提升計算性能、不同場景計算優化和生態建設三大挑戰,我們需要加強計算晶元創新、可擴展平台架構、系統優化設計等基礎技術研發和能力構建,同時也要從硬體、軟體、應用、人才等多方面綜合提升,避免短板效應帶來的整體產業發展的不良反應。」
▲中國工程院院士、浪潮集團首席科學家王恩東
AICC是以人工智慧計算為主題的國際性產學研交流合作平台,全球數十位知名專家圍繞AI計算創新主題進行主題演講,分享AI在互聯網、雲計算、超算、安防、醫療、能源、電商、智慧城市等眾多行業的創新實例。AI將會與其他領域技術碰撞出什麼火花呢?
AI+HPC
AI與HPC的碰撞無疑會為應用的提升帶來極大地促進作用,更是推動高性能計算向「智慧」邁進,浪潮積極促成AI與HPC的融合。
人才的融合上,制定了完善的人才培養計劃,出版了多本HPC的著作和AI專題報道,建立了高性能計算社區,也與多所大學聯合開展有關高性能計算的課程。
產業融合方面具體有三個領域。在氣象預報領域,傳統HPC能預測3-15天的氣象狀況,精準預測未來5天的情況,但短時段預測就要靠AI了。而生命科學方面,通常用HPC做基因測序、比對等,而利用AI在圖像識別上的優勢做醫療影像的處理。在傳統的材料學領域,通常用低性原理獲取材料特性,而現在以數千種材料的能系圖做為參考和輸入源,進行AI訓練以預測相應的複合材料的特性。
針對產業融合中遇到的系統管理方面的需求,浪潮發布AI管理軟體,能快速部署深度學習環境,管理訓練任務,提供高效運行環境。面向數據中心級的要求,浪潮發布新版本的ClusterEngine管理軟體,同時涵蓋AI、HPC、大數據三種業務,這三種可以動態切換,快速部署應用環境且與HPC和AI深度集成。
在硬體集群方面,HPC集群要求是根據應用定型,但AI由於它本身脫胎於龐大的數據和計算力,對集群的要求會更高。那麼,如何把HPC和AI對於集群的需求合二為一呢?首先,兩者硬體需求不同,需要做不同的細化應用。其次,融合AI和HPC,要在大平台上有新型應用管理方面的創新,能夠統一管理、調度HPC和AI的一些應用,並做相應的分析。最後還需優化加速應用。
▲百度雲智峰會上,百度與浪潮聯合發布的ABC一體機
浪潮剛發布的全新一代M5產品,就能從容應對各種計算需求對硬體結構的不同要求,這一點就很好的解決了在硬體架構方面和集群的硬體配置方面的挑戰和需求。
由此可見,AI與HPC的融合不僅有用,而且必要。而浪潮則通過系統調優、應用調優、加速等增值服務幫助企業構建HPC和AI的硬體集群優先平台,從而更好地實現HPC和AI的融合。
AI助力企業轉型與創新
AI助力企業轉型已經不是新鮮事兒,許多傳統產業都藉助AI進行轉型,也有許多有關計算的企業藉助AI優化演算法。那麼,具體企業如何藉助AI實現產業創新,關於企業如何設計端對端的AI系統以及可能會遇到的數據、演算法、計算系統三大挑戰又如何解決呢?
針對這些問題,浪潮闡明相應措施和步驟。從整個端到端AI的計算設計流程來看,先通過具體的應用場景進行問題的分解。分解完後對模型進行設計。模型設計有不同的AI處理需求,可能是對圖像、語音的處理,也可能是對文本、數據的處理。
接下來是數據的預處理、數據的清洗、增強和標註,數據預處理方面,主要是給數據雜訊去噪和增強的過程。
最後就是對框架的選擇,選擇好後進行針對性測評。不同場景的問題選擇不同的框架,對不同模型的特點也要選擇不同的框架。此外,根據計算平台的特點做出測試和分析。就系統設計架構來看,訓練可能採用CPU加GPU異構的平台,網路方面,一般線下採用高速互聯網,線上採用萬兆的方式。
整體完成後,需要對系統進行部署和管理,如果系統規模較小,單節點或幾個節點感受不明顯。如果系統規模有上百個節點,那麼靠人工的方式去管理整套系統,成本過高。於是,浪潮對整個的AI計算系統部署管理平台,以實現快速部署,此外,對開發和調試階段進行可視化。用統一的資源平台進行管理,進一步排列,實現資源的合理使用。
總而言之,先是採集不同的數據,然後經過CPU來進行預處理,統一存儲,通過GPU訓練數據,再在訓練平台上部署管理系統及相關的框架來支撐整個訓練環境,最後實行智能的推斷和識別。
AI牽手互聯網創造新輝煌
目前,中國已經成為全球第二大人工智慧企業的孵化地。從整個HPC領域到互聯網,再到今天的傳統企業,大家都有同樣的一個需求就是如何能夠把AI這個技術應用,並且落地,讓AI的硬體與軟體匹配起來。這是整個行業的奮鬥目標,同時也面臨巨大的挑戰。
對於傳統企業,是需要整套的解決方案的,因為在軟體層面他們缺少前期積累。這時候浪潮提供了一體化的解決平台,不單單是底層硬體,還有一些上層的軟體方面,然後實現軟硬體的匹配。
浪潮也與互聯網企業像是百度的圖像識別甚至是阿里的AI的雲合作,加上浪潮本身擅長於IT基礎設施,可以幫助傳統企業實現快速轉型,提高它的核心競爭力。
與互聯網公司的合作除了幫助傳統企業實現轉型,浪潮也創新了一些產品,一起將AI技術優化到極致,從而提升其各方面的技術應用。互聯網企業更擅長軟體開發、軟體演算法的移植,那麼,浪潮精妙地匹配軟硬體、搭建更好地IT架構就會是其中的關鍵。
根據企業想要實現多卡互聯的訴求,浪潮聯合互聯網公司將原有的模式進行創新,縮短了訓練時間,同時也降低了系統成本。針對不同企業對伺服器不同的要求,浪潮調整了拓撲架構,以實現靈活的調度調整。不管你是單機4卡還是8卡,統統滿足你。
構建新AI 創新計算
AI近兩年炙手可熱,這與深度學習理論的發展分不開。數據、演算法和計算,構成了現在基本的深度學習系統的架構,而框架、演算法、模型,又是AI計算里最基礎的計算環境。目前,AI就是一個比較簡單的環境。圖片的識別、分類、文字語音的識別可以在這個環境里處理,但是如果要做一個比較複雜的AI系統,就沒那麼簡單了。通常,構建一個大型的AI系統,面臨的計算就會比較複雜,同時,也會面臨一些多用戶如何協作、計算資源如何分配、如何保障硬體的性能正確發揮出來等一些常見的問題。
其實根本來說就是提高效率。據此浪潮提出了兩大方面:一方面,簡化AI業務,降低複雜度,以減少訓練時間,儘快出結果。另一方面,需要對硬體的性能進行優化。首先對系統性能有個分析,然後再針對具體問題進行優化。
從深度學習業務流程來看,首先構建訓練環境,就可以進行訓練調優,找最佳的參數、最優的性能、最優的模型。創建環境是其中一個比較關鍵的環節,之後,通過Web進行機器學習訓練,不停訓練直至找到最優。期間,通過訓練可視化實現實時了解和掌握。
在計算系統優化方面,將計算資源整體集中管理和分配以提高計算系統效率。集成管理方面,統一管理GPU資源,明確當前資源的使用負載以及性能情況。將資源集中管理、集中調度、按人員需要分配。然後進行針對性優化,保證集群的性能正常發揮,且發揮最大功效。
其實,總的來說就是在用戶的應用和計算資源之間構建一個中間層,構成用戶和硬體之間的橋樑,簡化AI的業務複雜度,通過這個中間層保證硬體的資源有統一的使用、統一的分配,沒有浪費,能滿足每個人的需求,保證底層硬體設備的性能最優,這樣才能把硬體的計算性能發揮出來,達到加速訓練提高AI系統效率的作用。
點評:筆者認為AI是一個黑匣子,裡面有著探不完的寶藏。而探索AI是一個長跑的過程,浪潮領跑,躍進各大領域,徜徉於AI大潮,攜AI玩兒轉智慧計算。
※20顆GPU!曙光SuperBox深度學習伺服器單機性能登頂
※微軟的「登月計劃」實施,拓撲量子計算你造么?
※你知道嗎?就連Excel都植入了機器學習!趕快來試試吧!
※Python程序員必看的十大學習資源
TAG:IT168企業級 |