華為CloudEngine 16800首秀 如何推動數據中心網路從雲邁入AI時代
2019.01.09,華為將數據中心網路推入了AI時代。
雷鋒網1月9日消息,華為正式推出內置自家AI晶元昇騰310的數據中心交換機CloudEngine 16800,也是業界首款搭載高性能AI晶元的數據中心交換機。距離華為上一款旗艦產品CloudEngine 12800系列的發布已經過去了6年,CloudEngine 12800在雲時代大獲成功,CloudEngine 16800顯然是華為堅定押寶在AI時代的一款拳頭產品,而且做好了打好幾年糧食的準備。
發布會地點選在了北京國貿大酒店,北京的CBD核心區迎來送往,數據中心交換機其實也是這麼個角色,只不過運輸轉發的是數據。
數據中心的流量主要分為東西向流量和南北向流量,還有一部分流量是數據中心之間的流量。據說是因為早期繪製網路架構圖,從上到下(從北到南)是核心網路設備到客戶端,從左到右(從西到東)是伺服器到伺服器,所以就沿用了這個說法。
南北向流量即指數據中心伺服器到數據中心以外客戶端之間的流量,東西向流量即指數據中心內部伺服器之間的流量。不過很大的變化是目前東西向流量已經遠超南北向流量,數據中心伺服器規模的擴大,更多應用需要池化資源來滿足,伺服器集群內部流量驟升。有數據顯示,2020年全球數據中心東西向流量佔比將超過80%,而早期數據中心的流量80%為南北向流量。
我們平常所使用的各類終端接入互聯網也是依靠各種交換機和路由器來實現數據傳輸,如此龐大的流量其實只佔兩成,這還只是非數據中心交換機,數據中心交換機將處理轉發八成流量,足以說明其重要程度。關於數據中心交換機引用一句話非常合適——「就算未來所有硬體盒子形態網路設備終將消亡,數據中心交換機作為連接伺服器的匯流排,將永遠存在。」
數據中心網路進入AI時代
雷鋒網了解到,上一代產品CloudEngine 12800以82%的複合增長率連續六年增速全球第一,已在全球6400+個數據中心成功商用部署。另外相關數據顯示,華為2017年(2018年數據還沒出)全年中國數據中心交換機市場份額排名第一,為39.48%,超過第二名6個百分點,主要原因就是CloudEngine 12800抓住了雲數據中心的發展機遇。
自2012年CloudEngine 12800發布後,華為數據中心網路產品在市場一路走高,2013年華為成為增長最快的數據中心網路廠商;2014年年增長率達137%;2015年華為成為唯一進入全球SDN領導者行列的中國廠商;2016年中國區市場份額第一,全球份額第三;2017年邁入Gartner數據中心網路魔力象限的挑戰者象限,距離挑戰者象限僅一步之遙;2018年邁入數據中心SDN網路硬體廠商領導者行列。
華為CloudEngine系列交換機包括核心交換機、虛擬交換機、接入交換機,16800就是核心交換機的旗艦,典型數據中心應用場景是核心交換機與TOR交換機通過埠互聯,採用TRILL、VxLAN等協議組建無阻塞二層網路。
華為在發布會現場沒有言明新產品的小目標,但從產品角度可一窺華為野望。
華為網路產品線總裁胡克文在現場表示,AI時代數據中心有三大挑戰:
傳統乙太網丟包率0.1%,AI算力只能發揮50%;
未來五年,數字洪水增長20倍,現有100GE的網路無法支撐;
計算、存儲、網路深度融合,人工定位網路問題需數小時。
相對應的,在華為看來,AI時代的數據中心交換機應具備三大特徵:
內嵌AI晶元業界首款內嵌AI晶元數據中心交換機,100%發揮AI算力。華為實現0丟包低時延高吞吐的無損數據中心網路主要包括靠兩點:一方面是單流局部調優,華為內嵌AI晶元的數據中心交換機對網路狀態實時檢測,實現交換隊列動態ECN門限,隊列緩存的智能調整,並在最佳時刻給予發送端最快的反饋,實現源端發送速率的動態調整;
另一方面是整網全局調優,CloudEngine 16800承載獨創的iLossLess智能無損交換演算法,能夠對全網流量進行實時的學習訓練,並根據不同業務流量模型的特點動態設置最優的網路參數,更精準地控制流量,實現百萬流和基於應用的隊列自適應不同場景的全局網路自優化能力。從而在零丟包基礎上獲得更低時延和更高吞吐的網路性能,克服傳統乙太網丟包導致的算力損失,將AI算力從50%提升到100%,數據存儲IOPS(Input/Output Operations Per Second)性能提升30%。
單槽48 x 400GE
業界最高密度單槽位48 x 400GE,滿足AI時代5倍流量增長需求,為了滿足AI流量需求,華為主要強調了三個「Super」
SuperFast高速互聯:新材料新工藝,100G->400G全生命周期兼容演進。從100G到高密400G,首先考驗的是信號高速傳輸能力, 400G介面系統內互連信號頻率53G以上,信號的頻率每翻一倍,PCB線路板信號衰減就會增大20%以上,傳統的電路板由於採用的普通銅箔材料及製造工藝問題,當信號傳輸速率提升的時候,損耗和高頻干擾非常嚴重,存在速率極限。 華為採用新型亞微米無損材料及高分子鍵合技術的製作工藝,將電信號的傳輸效率提升30%,滿足100G到400G全生命周期兼容和能力演進。
SuperPower最優能效,電源空間節省50%,供電效率提升90%。華為提出業界首個雙路輸入智能切換的電源模塊,採用磁吹滅弧和大勵磁技術實現ms級快速切換,21個電源模塊就可以實現原來40個模塊所達到的供電能力和可靠性,電源空間節省50%。 線路板上採用矩陣磁和高頻磁技術,實現在兩個拇指大小的空間內提供1600W供電能力,使得單位空間的供電效率提升90%。
SuperCooling最強散熱,雜訊低於業界6分貝,散熱能力提升4倍。如此超高密度的交換機,散熱是整機工程能力的一個重要體現,CloudEngine 16800散熱系統包括單板級和系統級。單板散熱方面,晶元會產生熱量,如何將這些熱量均勻導出單板並散發出去是散熱設計的關鍵,CloudEngine 16800採用獨有的碳納米導熱墊和VC相變散熱技術,散熱效率較業界提升4倍,整機可靠性提升20%。整機散熱方面,華為採用了業界首創的混流風扇,可以使得整機散熱效率達到最佳,與業界相比,平均每bit數據的功耗降低50%,相當於每台每年節省32萬度電,約合26萬元電費,減少碳排放250餘噸。獨有的磁導率馬達,靜音導流環噪音降低6dB,CloudEngine 16800真正做到了綠色節能。
CloudEngine 16800全面升級了硬體交換平台,在正交架構基礎上,應用如上技術,使單槽位可提供業界最高密度48埠400GE線卡,單機提供業界最大的768埠400GE交換容量,交換能力高達業界平均的5倍,同時單比特功耗下降50%,還綠色節能。
向自動駕駛網路演進使能自動駕駛網路,秒級故障識別、分鐘級故障自動定位。秒級故障識別、分鐘級故障自動定位,CloudEngine 16800基於內置的AI晶元,可大幅度提升「網路邊緣」即設備級的智能化水平,使得交換機具備本地推理和實時快速決策的能力;通過本地智能結合集中的FabricInsight網路分析器,構建分散式AI運維架構,可實現秒級故障識別和分鐘級故障自動定位,使能自動駕駛網路加速到來。同時,該架構還可大幅提升運維繫統的靈活性和可部署性。
CloudEngine 16800作為一款面向AI時代的數據中心交換機,提出了一個新概念——數據中心AI交換機,這也是大廠分外看中的一個方向。雷鋒網獲悉,早在2017年,思科就以1.25億美元的代價收購了人工智慧初創公司MindMeld,彼時就給AI交換機這個新物種帶來了一些期待,但後來卻鮮有聲音,在全球市場華為拔得頭籌,是否會掀起行業對於該類產品的追捧?競品遍地開花的情況可能不會太遙遠,不過其他廠商首先要妥當解決AI晶元的問題。
必然性與演進性交換機在華為歷史上有著濃墨重彩的一筆,被無數次提及的萬門C&C08交換機,曾經讓任正非表態「研發不成功就跳樓」,C&C08的命名有兩層含義,一是 Country&City (農村&城市),表達了華為希望進入城市的決心;二是 Computer&Communication(計算機&通信),數字程式控制交換機就是計算機和通信的組合,至於08就是圖個吉利。
萬門C&C08交換機救了當時的華為,華為後來不少副總裁級別領導都出自該部門,華為也從彼時進入到傳輸、移動、智能、數通等領域。CloudEngine 16800會是華為引領AI時代數據中心網路領域的先遣軍么?
根據華為GIV 2025(Global Industry Vision)的預測,到2025年,新增數據量達到180ZB,95%的非結構化數據(語音/視頻等)依賴AI處理。就算這些數據只有一部分存放在數據中心,對數據中心流量處理的影響也是「災難性」的。
Gartner研究總監Owen Chen表示,AI將在很大程度上影響IT基礎架構,包括計算、存儲和網路等,同時Gartner認為AI驅動數據中心網路變革即將開始,一方面,AI業務運行對網路交換提出新訴求,比如網路要求超大帶寬(從100G到400G、800G),0丟包、E2E低時延;另一方面,AI驅動網路部署運維重構,即從人工運維到AIOPS,關鍵詞包括意圖驅動、預測性維護、自治自愈、自動駕駛網路、無人值守等。
雷鋒網此前總結,「談雲不談網,都是耍流氓」,用以說明雲網協同的重要性,雲計算必須有足夠的網路能力支撐。而其實計算、網路和存儲的發展中,存儲介質有了快閃記憶體盤,時延降低不止100倍,計算領域的GPU和AI專用晶元,將數據處理能力提升了100倍以上,處理的協議由TCP/IP演進到RDMA,網路的發展亦步亦趨,慢了一大拍。
雷鋒網同時觀測到,有一些超大規模數據中心採用白盒或者品牌白盒交換機,這是否已經成為一種趨勢?對此,華為交換機與企業網關產品線總裁鍾開生表示,這涉及到不同路徑的選擇,白盒交換機並不代表節約成本,比如要滿足運維要求就需要專業的人來做專業的事,華為多年來的積累能為客戶提供全套解決方案。
CloudEngine 16800雷鋒網現場實拍圖
超大規模數據中心的數量不斷增加,計算、存儲和數據三網融合,傳統人工運維手段已難以為繼,亟需引入創新的技術提升智能化運維的能力,關於AI運維,業內也有不同觀點,認為AI運維現在還是概念化階段,至多是簡單運維管理的自動化、批量化操作。
其實不管是內嵌AI晶元,還是智能運維,從現在的角度看都有其局限性,技術的發展也不可能一蹴而就,華為是在探索的同時推陳出新,比如1280012008E16800三大產品硬體平台均不一樣,也反映出華為的仍在尋找更適合的技術路徑。
正如華為交換機的崛起一樣,性價比加服務模式讓華為收割市場,CloudEngine 16800則在性能上更進一步,適合於AI時代數據中心綜合需求。數據中心網路進入AI時代有其必然性,但同樣有很大的演進空間。
※天文學家與阿里合作尋找「第二地球」,39光年外或有生命條件
※三大運營商5G頻譜落定 重演3G時代舊事?
TAG:雷鋒網 |