強悍的A64FX為Arm伺服器打了一針強心劑

科技 08-29

在全球超算領域，中美一直在爭奪算力第一的位置，此外，日本和歐洲是兩股重要力量。而在超級計算機的核心——處理器方面，也是八仙過海，各顯神通，特別是在處理器架構方面，業界有著不同的路線：有的採用傳統的x86以及IBM的Power，有的採用最新的並行異構計算體系，還有一個就是ARM伺服器架構。

上周，在Hotchips會議上，富士通公司公布了號稱最強ARM處理器A64FX，其集成了48+4個核心，配備32GB HBM 2內存，帶寬1TB/s，浮點性能2.7TFLOPS，使用7nm工藝生產。該處理器將用於日本新一代代號為Post-K的百億億次超算，據悉，其性能將是現在的京式超算的100倍，而能耗只有三倍。

日本現在的超算京（Kyo）是富士通聯合日本理化研究所開發的，使用的處理器是SPARC64架構，而新一代的百億億次超算將使用全新研發的處理器A64FX，與現有的超算相比，新一代Post-K超算最大的變化就是處理器從SPARC64架構全面轉向了ARM，富士通還聯合ARM推出了SVE（可伸縮矢量擴展）指令集，大幅強化浮點性能。

據悉，A64FX處理器使用了ARM的ARMv8.2-A指令集，浮點單元則是上面提到的SVE，支持512bit位寬浮點運算。這個處理器的架構設計也很特別，有48個計算核心及4個協助核心組成，分為四個CMG單元，每個單元13個核心，28Gbps I/O帶寬，16條PCIe 3.0通道。

強悍的A64FX為Arm伺服器打了一針強心劑

A64FX處理器將使用7nm FinFET工藝生產，87.86億個晶體管，性能可達2.7TFLOPS，是前代的SPARC V9處理器1.1TFLOPS的2.5倍左右。

根據富士通公布的信息，目前A64FX處理器已經完成原型開發，新一代超算已經進入功能測試階段。

富士通這一處理器產品的推出，特別是該公司將原有的超算處理器架構由原來的SPARC64全面轉向了ARM，無疑是給當下的ARM伺服器市場打了一針強心劑。

全球伺服器市場的ARM元素

在當今的伺服器CPU架構領域，ARM明顯處於弱勢地位，市場主要由x86主導，另外還有Power。在美國，ARM伺服器CPU聲勢越來越弱，高通、AMD等大廠紛紛裁撤在該方面的投入。

ARM伺服器CPU主要應用包括商用和超算等，下面就以超算應用為例，因為它還是比較有代表性的。

今年6月，美國能源部與IBM、英偉達合作打造出了新一代超級計算機，名為Summit。其峰值運算性能達到200PFlops，也就是每秒執行20億億次浮點運算，是迄今為止性能最強的超級計算機，也標誌著自2012年以來美國超算超越中國，再次奪冠。Summit基於IBM的Power Systems AC922做節點，每個節點搭載2個Power9處理器和6個NVIDIA Tesla V100 GPU顯卡，總共設計約4600個節點。

可見，美國的超算更看好CPU+GPU的發展路線。

而全球超算兩強之一的中國，在處理器架構方面，則呈現百花齊放，並行發展的態勢。

中國現在同時啟動了三大百億億次超算研發項目，分別是國防科大/天津超算中心的「天河三號」、中科曙光的E級超算以及江南所/濟南超算中心的「神威」E級。以上三套百億億次超算中，核心處理器都將是國產的。

其中，「天河三號」採取的技術路線則是基於ARM構架處理器，中科曙光則選擇了類似於美國主流超算的CPU+GPU技術路線，「神威」採用的是眾核異構體系——國產申威SW26010處理器。

此外，歐盟預計於2022~2023年交付首台E級超算，使用的是美國、歐盟處理器，架構有可能類似ARM。

以上主要給出全球超算市場的處理器架構情況，而在商用伺服器市場，ARM處理器應用情況與超算沒有太大的差別。可見，ARM架構在全球伺服器市場是處於弱勢地位的。

但隨著中國在ARM伺服器研發上的發力，以及日本的代表企業富士通將超算處理器架構由SPARC64全面轉向了ARM，特別是本次推出了強悍的新一代ARM處理器A64FX，讓人感覺眼前一亮。這些，是否預示著ARM伺服器在市場洗牌之後，進入了新一輪的博弈呢？答案還要由市場和時間給出。

中國ARM伺服器CPU陣營

中國的ARM伺服器CPU有三強，分別是飛騰，華芯通和華為。

「天河三號」原型機採用的就是飛騰的ARM處理器，是一款百億億次的超算產品，綜合運算能力是「天河一號」的200倍，「天河二號」的30倍（「天河一號」、「天河二號」用的都是Intel的Xeon處理器）。「天河三號」原型機於今年6月部署在天津超算中心，年底將正式上線投入使用。據悉，原型機的作用是為了驗證『天河三號』的技術路線。

在「天河一號」、「天河二號」階段，飛騰處理器就有應用，但當時採用的不是ARM架構，而是Ultra SPARC，基於此架構的8核64線程的FT-1000被用在天河一號的節點網路上，之後，同樣基於SPARC架構的FT-1500，用在了天河二號超算上，用於節點前端處理器。

之後的FT-1500A，其架構則由SPARC轉變成了ARM 64位，這與富士通的發展路線非常相似。不過飛騰這一轉變還有另外一層因素，就是避免被Intel的Xeon處理器「卡脖子」。

之後，飛騰在2016年發布了基於ARM架構的FT-2000，最新產品是尚未對外發布的升級版——FT-2000 Plus。

FT-2000採用28nm製造工藝，可被用於超算計算節點和高性能伺服器。集成了64個FTC661處理器核。工作主頻1.5GHz—2.0GHz。支持16個DDR3-1600存儲控制器，可提供204.8GB/s訪存帶寬。最大功耗100W。

據悉，在ARMv8指令集兼容的現有產品中，FT-2000在單核計算能力、單晶元並行性能、單晶元cache一致性規模、訪存帶寬等指標上處於國際先進水平。其自定義的擴展介面不但可以用來擴展緩存容量和存儲能力，還可以用來外接FPGA等加速器類專用晶元，實現異構計算。

雖然沒有公開，但業界普遍認為，「天河三號」採用的處理器應該就是FT-2000 Plus。這款CPU是FT-2000的後繼產品。有信息顯示，FT-2000 Plus採用16nm製程。

強悍的A64FX為Arm伺服器打了一針強心劑

相對於FT-2000，FT-2000 Plus首要任務就是提升集成度，以便於整機設計，其由支持可擴展DDR3存儲控制器改為片內集成DDR4內存控制器，再加上使用了台積電16nm製造工藝，主頻最高可穩定在2.4GHz，使FT-2000 Plus相對於FT-2000還是有不小的性能提升，能夠滿足高端伺服器和超算主控CPU的性能要求。雖然FT-2000 Plus在單核性能上和Intel還存在一定差距，但在多核性能上，已經達到Intel伺服器CPU E5 主流產品的水平。

華芯通

今年5月，華芯通在數博會的「Arm伺服器產業生態高峰論壇」上正式發布了其高性能伺服器CPU品牌「昇龍」。華芯通首款「昇龍」處理器採用10nm製程工藝，最多48核，ARM V8架構，內置國密密碼模塊和晶元級的安全基礎架構。

據悉，昇龍處理器流片回來的實測性能已達到兩顆英特爾最新主流CPU水平，其能耗卻低了50%以上。如果情況果真如此的話，那麼其性能還是比較強勁的，至少從算力上是可以進入主流雲服務市場的，可以與x86架構產品爭一爭，但短期內還難以形成規模，發展道阻且長，市場前景還要看華芯通的運營能力，以及主要合作和技術提供方——高通的支持力度。

華為

2016年，華為推出了第一款ARM架構伺服器CPU「泰山」(Taishan)1612，採用的是ARM Cortex A57，這款處理器採用了台積電16nm製程工藝，兼容ARM v8-A指令集，是華為在國內主推的第一款多核伺服器CPU。

據悉，1612是核高基1號專項項目，用來做互聯網冷卻儲存的生態系統驗證，並未進行推廣和量產。據說，經過幾年攻堅，華為已經攻克多項技術難題，2017年成功開發出第一款自研的、基於ARM架構的CPU，能效是x86的x倍、領先市場上的同類ARM架構CPU。從華為的一次會議上獲悉，華為海思圖靈業務部開發的泰山自研64 位CPU已經成功商用。

最近有消息傳出，2019年華為將研製出性能堪比x86主流中端產品的ARM架構伺服器晶元，並將正式量產，進行公開商用推廣。

華為在研發處理器方面一向都非常謹慎，而在ARM架構伺服器晶元方面更是低調至極，鮮有公開信息。可以肯定的是，在ARM伺服器CPU研發方面，華為內部一定是在緊鑼密鼓地進行著，就看這個憋了很久的大招何時能夠放出吧。

結語

ARM在手機和嵌入式應用當中順風順水，呼風喚雨，在此基礎上，有了足夠的底氣和資本，從而想在伺服器領域與傳統的x86陣營掰一掰手腕，要想在堅固的x86生態中分得更多蛋糕，確實困難重重，需要付出的努力和投入將是巨大的。

而日本及中國ARM伺服器CPU陣營的堅持與投入無疑為其發展增加了砝碼，而如何運用這些砝碼來建設新生態，突破固有格局，走上良性的商用之路，是擺在ARM伺服器陣營面前的大課題，前途如何，將由時間來檢驗。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 半導體行業觀察 的精彩文章:

※內存三巨頭面臨中國重罰：最高80億美元
※台積電3nm工廠邁出重要一步

TAG:半導體行業觀察 |