當前位置:
首頁 > 最新 > 唐駁虎:憋了5年美國超算重超中國,但只能秀半年

唐駁虎:憋了5年美國超算重超中國,但只能秀半年

在宣傳的過程中,有部分機構為了吸引更多的達人加盟,在企鵝號的補貼政策上加入了機構自己額外的補貼承諾。

周末最大的科技新聞,應該是美國超級計算機重奪世界第一,速度超過了中國「神威」60%。

筆者也正好藉此機會向公眾介紹一下超級計算機領域激烈的中美競爭。而且這應該是真正最完整和最通俗的解讀了。

【美國已經落後甚至被甩開了5年】

這將是自2013年6月以來,美國首次登上超級計算機的榜首,當時它被中國廣州的天河二號奪去了第一名。到2016年,中國無錫的神威-太湖之光,又以3倍的優勢大幅度刷新記錄,繼續為中國把持著榜單首位。

在上一輪,也就是去年年底的全球超級計算機TOP500排行上,美國的最高排位已經被瑞士和日本擠到了第五位。

而在TOP500總榜單中,中國系統總數為202台,佔比超過四成位居第一。美國只剩143台。中國在總體算力上也超過了美國。在TOP500的總算力中,中國佔了35.4%,美國只有29.6%。

再往下的國家數字就很少了,日本35台,德國20台,法國18台,英國15台……這就是當今全球頂尖科技與商業的競逐寫照:只有中美兩個大玩家。

【請不要再用人手去類比了——G的十億級領域】

在進一步介紹之前,很有必要科普衡量現代計算機性能的基本專業參數——每秒浮點運算次數(英文縮寫:FLOPS)。否則,一味地還在採用「相當於全球70億人手按多少百億年計算器」,實在既不直觀,也難比較。

從鼻祖ENIAC的300 FLOPS開始,計算機開始了指數化發展的歷程。在英文辭彙與縮寫里,K是千,10的3次方;M是百萬,10的6次方;G是十億,10的9次方,以此進位。

在超級計算機(簡稱超算)首次被中國媒體報道的80年代中期,超級計算機的速度是1 GFLOPS量級,也就是每秒十億次浮點運算。

1983年中國造出第一台銀河一號巨型計算機,每秒運算一億次以上,也就是0.1GFLOPS。而當年全球最快的美國克雷,則是八億次,也就是0.8GFLOPS。

放在今天,這性能大概連塊電子錶都不如。

【千倍性能的超算,過十幾年就還不如個人玩具——T的萬億級領域】

十五年後,到了90年代末期,個人電腦上的CPU開始出現1 GFLOPS的能力,而此時全球最快的超級計算機,性能已達到了1 TFLOPS以上——T是一萬億,10的12次方。

因此個人電腦與同時代專業超算的差距,是1000倍。

而再過十五年,2014年的個人電腦CPU就有0.6 TFLOPS的能力,現在2018年的頂級手機CPU,也具備了同樣的水準。

絕大部分人都不會意識到,手上小小的智能手機,竟然堪比20年前極其龐大笨重的全球最強超算,而且體積重量也縮小了1000倍。

否則,還怎麼玩微信、刷視頻、打遊戲,以及實時美顏?那都是以接近T級的計算能力,實時算出來的!

信息科技的指數化發展,創造了無與倫比的爆炸式進步,也推動了無法想像的社會形態變革。

所以TFLOPS(萬億),才應該是討論現代計算機的起點。否則,數據後面所列的〇和億太多,實在超出了普通人的理解力和想像力,也脫離當下的發展現實。

【同樣的,專業超算要保持比個人玩具強1000倍——P的千萬億級領域】

而主要用於遊戲的顯卡,由於幾百個運算單元並行處理的特性,性能增長還高出一個數量級。

以目前市場上最熱銷、最主流的NVIDIA GTX 1060遊戲顯卡為例,它的成品價格是2000多元人民幣,遊戲單精度計算能力是4.4 TFLOPS,比傳統CPU高了約10倍。

再往上,目前NVIDIA最新的頂級顯卡Titan V達到了15 TFLOPS,是GTX 1060的三倍多,當然,售價也達到了兩萬多元。

而當TFLOPS再增長1000倍,就是PFLOPS(千萬億)。這才是當今專業超算的能力範疇——實際1個PFLOPS能力的超算,在去年底的榜單上,能排在全球183位。

【美國怎麼奪回冠軍的:等了整整3年】

為了奪回被中國佔據的最快超算王座,早在2015年,IBM和NVIDIA就接下了美國政府的訂單,要為掌管研製核武器的美國能源部所屬的橡樹嶺國家實驗室、勞倫斯利福摩爾國家實驗室,分別打造20億億次和15億億次,也就是200 FLOPS和150 PFLOPS的超算。

兩台超算分別命名為Summit和Sierra,總耗資約3.8億美元。但一直要到2017年底,兩家公司研製出相關核心晶元之後,才能轉換為工程現實。

橡樹嶺國家實驗室名為「頂點」(Summit)的超算,使用了4608個計算伺服器節點,每個節點含有2個IBM的Power 9處理器(CPU)和6個NVIDIA(英偉達)公司生產的Tesla V100圖形處理單元加速器(GPU),以及512 GB的DDR4 內存。採用效率更高的水冷散熱。

NVIDIA的Tesla V100,採用台積電12納米工藝製造,集成了210億個晶體管,外圍是32 GB內存。每個售價9000美元。

Tesla V100和民用頂級顯卡Titan V同為Volta 架構,但考慮穩定性頻率略低,理論計算能力為單精度14 TFLOPS,但科學計算都用雙精度模式,為7 TFLOPS。

GPU接管了大部分的工作負載,但CPU仍然是數據處理的中心。IBM的POWER9,採用格羅方德(原AMD的製造部分)的14納米工藝製造,集成了擁有80億個晶體管。具有24核96個線程,實際使用22核。每顆售價6000美元起。

這樣,單個節點擁有6塊雙精度7 TFLOPS的V100,理論計算能力就超過42 TFLOPS。4608個節點合起來,就是20萬個TFLOPS,200個PFLOPS——用中文說就是20億億次。

這相當於個人電腦中高端遊戲顯卡的9萬倍,主流CPU的90萬倍。也比美國目前排名世界第五的的最強系統『泰坦』(Titan)強8倍。

當然,比起個人電腦,一要解決大規模集成與互聯並行計算,二要解決超大數據量吞吐與節點間交換,三要追求更高的效率和更高的功耗比,這就需要最先進的配件。

【只花了2億美元?背後是幾十億美元的研製經費】

單算比例分攤,Summit的造價的確是2億美元出頭,看似並不多,在中國也就能修一公里多地鐵,在美國連毛都不算。

但是,光TESLA V100及其背後的Volta 架構,就凝聚了Nvidia 7000 多名工程師超過3 年的研發,投入資金達30 億美元。IBM的Power 9以及總體架構設計也要花差不多同樣的錢。

IBM的女CEO羅睿蘭(Ginni Rometty)表示:「這是我們最大的成就之一,它是最快、最智能的超級計算機。」

美國能源部長里克?佩里自豪地表示:「Summit的發布體現了美國在科學創新和技術開發方面的領導實力。它將對能源研究、科學發現、經濟競爭力和國家安全有深遠影響。」

【憋了5年美國超算重新超越中國,但也許只能秀半年】

另外,Summit的理論總計算能力是200 PFLOPS,也就是20億億次。但實測的真實計算能力還未公布,因為理論加總的總和本無法全部兌現。

中國的神威-太湖之光,理論能力125 PFLOPS,實測對兌現了93 PFLOPS,效率近75%,已經是很高的記錄了。

美國之前排名第三、全球第七,能源部洛斯阿拉莫斯國家實驗室的Trinity,實測效率不到32%。可見系統架構設計有問題。

美國雖然能借Summit 重回超算榜首地位,但這個寶座恐怕坐不了多久,根據中國最新的進展,恐怕到年底,中國超算就有望重新取而代之。

想必,中國超算的最新進展及其應用場景,才是廣大讀者真正更關心的話題。請待下篇。

來源|鳳凰新聞客戶端

招人了!!!鳳凰網科技頻道現招聘前沿科技記者1名,具體要求如下:

崗位:前沿科技記者(含區塊鏈方向)

更多一手新聞,歡迎下載鳳凰新聞客戶端訂閱鳳凰網科技。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 鳳凰科技 的精彩文章:

美公布全球最快超級計算機 落後中國四年後終於追上來

TAG:鳳凰科技 |