當前位置:
首頁 > 新聞 > 硬體超車無法掩蓋生態缺失,軟實力構建任重而道遠

硬體超車無法掩蓋生態缺失,軟實力構建任重而道遠

雷鋒網按:在10月的2018全國高性能計算學術年會(HPC China 2018)上發布的中國高性能計算機性能排行榜TOP100中,中科曙光第九次奪取中國內市場份額的第一名。而在11月全球超級計算大會(SC18)上,全球首款採用了浸沒式液體相變冷卻技術刀片伺服器的HPC系統——曙光新一代硅立方高性能計算機首次亮相,標誌著使用全新浸沒式液冷高效散熱技術的硅立方產品形態的誕生。

軟體層面上,中科曙光發布了SothisAI2.0人工智慧平台,推動AI、深度學習及訓練領域與HPC的深度融合。依託AI大潮,中科曙光也在以AI為主體業務的互聯網領域斬獲頗豐,簽下了以今日頭條為代表的大單,標誌著其在互聯網方向非傳統HPC領域的大力發展。

中科曙光表示,融合將會是未來重點推動的理念之一,希望能夠將平台打造成支撐HPC、大數據或AI的綜合性先進計算平台。

近日,雷鋒網與中國科學院計算機網路信息中心副主任研究員遲學斌、曙光副總裁、中國國家高性能計算機工程技術研究中心副主任何鐵寧,以及曙光公司高HPC方案與交付部經理杜夏威,就中科曙光HPC領域在2018年及未來的發展狀況進行了交流對話。


異構計算興起

2018年,HPC領域出現了許多新名詞新概念,比如以前常用的性能單位是Flops,現在又多了一個新單位Ops,不再以浮點運算作為衡量標準,而是對操作次數的考量。此外還有NVIDIA產品上常見的Tensor Core,這一新計算單元在未來的AI運算領域還會有更多發展空間。

自NVIDIA DGX2公布後,HPC界開始從純粹追求高性能,轉變為與AI尋求更好的結合,美國的Summit超級計算機也不例外。隨著Summit重新奪回了中國佔據多年的TOP500第一名,讓採用CPU+GPU這種異構體系結構的HPC成為了絕對主流。

遲學斌對雷鋒網講到,Summit這台機器讓人印象特別深刻的一點是它的實測效率很高,達到了70%多,這在已有的異構系統里應該是最高的一台,其最高性能高達3EOPS,這對於中科曙光來講是一個挑戰,要發展同樣E級計算HPC的話,其他途徑很難實現,只能使用異構體系。

據介紹,在全球超級計算大會上,已經有一些非常完美的Summit應用展示了出來,例如由美國加州理工大學和國家實驗室設計的,使用傳統科學計算和AI計算相結合來預測地震的應用,在設計上非常有意思。

「地震整體的計算使用了傳統科學計算中的有限元,而在單點破壞嚴重的地方則使用了測量數據加AI推理。」何鐵寧分析道,「兩者結合之下,將Summit這台機器應用到了完美,並據此得到了戈登·貝爾獎。」他表示,這些應用最值得學習的地方是如何讓傳統科學計算和AI計算這兩者有機的結合起來,實現比較完美的負載均衡完全匹配。


綠色、高效、可擴展

在2018年的HPC領域,節能性已經成為了一個非常重要的問題,這從全球超級計算大會Green500排名便可見一斑。

根據雷鋒網的觀察,目前在一個計算中心的成本中,電費佔據了相當大的比例,而為緩解這一狀況,內蒙古等北方能源產地正在積極考慮如何將煤炭直接轉變為計算力。即首先把煤炭能源就地轉為電力輸出,未來的計算中心則可以直接選址於此並直接將電力轉化為計算力輸出。

「原來要將北方開採的煤炭通過大秦鐵路運到南方,發電之後再千里輸電給計算中心,最後才能輸出計算力。」何鐵寧稱,「如果就地開採、就地發電、就地計算,然後直接把計算力從內蒙古輸到廣東,可以極大的減少現在運煤和輸電過程中的一系列損耗,整體運轉效率很高。」

他表示,目前中科曙光正在與呼和浩特政府進行探討研究,未來可能在呼市展開試點建設。

此外,未來在HPC上執行的運算,可能不再全部屬於傳統科學計算,其中還會包括一些推理等AI計算。原來HPC所處理的應用大部分屬於確定性的問題,在計算結果完成後只需精度符合要求即可,而以後要處理的問題可能越來越多是屬於趨勢問題,不再是靠精度取勝。

針對這一轉變,遲學斌以股市分析舉例,這是很動態的東西,並不需要那麼精確,但是要能正確描繪出其整體走勢。「這種動態問題在未來會發揮更重要的作用,現在傳統科學計算的規模受到可擴展性的制約已經很難大幅提升,在傳統科學計算和AI計算相結合的新形勢下,可擴展性的問題依然是關鍵性問題。」


中國超算的機遇和挑戰

今年的HPC市場風起雲湧,一邊是美國兩台新超算Summit與Sierra,將佔據HPC TOP500榜首多年的中國超級計算機神威太湖之光擠到了第三位,另一邊則是中國超算的入榜數量由半年前的206台增加到227台。此消彼長的激烈競爭讓我們更加關心,相比發達國家的超算技術領域,國內在超算領域主要存在哪些機遇和挑戰?

對此杜夏威表示,從企業的角度來看,真正的HPC技術在傳統行業或成熟產業界的滲透其實還遠遠不足。國內能做到依託HPC系統助推製造與模擬的製造業相比國外還很少,有很多高端製造企業依然停留在傳統工作站或傳統使用方式上,並不能有效利用或將其業務遷移到HPC系統並充分發揮效能,以加速產業或設計的快速迭代。

「這一情況影響的不僅是能不能完成計算的問題,可能還會影響依託計算衍生出來的整個產品生命周期管理、數據管理以及數據交互問題,甚至還包括未來一步步迭代產生的知識庫復用問題。」杜夏威對這一問題非常認真,「這是一個很大的鏈條,我們與國外相比還有很大的差距。」

遲學斌指出,中國在HPC領域跟國外一直有差距,也一直在追趕。這種差距主要體現在軟體和應用層面,且這種差距並非依靠資金投入便能實現追趕,而是要持續不斷的慢慢積澱。目前國內HPC硬體上的「彎道超車」並不能掩蓋整體缺乏良性發展的情況,我們現在也正向這一模式靠攏,想辦法完善生態體系,但差距依然很大。

「我們差的其實是一份底蘊。」何鐵寧總結道,「國外是一點點發展起來的,我們現在重要的是把欠下的基礎打牢。」

對於即將到來的2019年,遲學斌表示中科曙光的重點仍然在於E級超算,「實現途徑可能是異構也可能是眾核」,同時AI還是會繼續下去,依託於AI和傳統HPC如何能夠彼此配合或者融合起來,這可能還是各家追逐的熱點。此外中科曙光在軟體上的投入也將逐漸增加,明年將會有更多的投入在生態建設上。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

再入「企委會」,比亞迪如此優「秀」
出門問問CEO李志飛:明年,To B業務營收佔比將達25%以上

TAG:雷鋒網 |