2000多萬的人工智慧數據中心都有些啥設備?
如果把科技產業劃分為三個時代:PC 時代、移動互聯網時代和AI 時代。目前,我們處於移動互聯網時代的末期和下一個時代的早期,即以深度學習、無人駕駛為主的AI 時代。二叔前幾天看到中國科技大學類腦智能數據中心的一個中標標信息,投入2287.57萬購買相關的伺服器和存儲設備(預算是2500萬),這個感覺是用來從事人工智慧方面的科研工作。
招標書細節請複製URL進行下載http://www.ccgp.gov.cn/oss/download?uuid=96CA6540737F690B339BE0EDCCBE50
感興趣的朋友可以去下面的網址去查看詳細信息
項目需求信息
大致的需求如下:
12台TeslaV100伺服器(每台配備8個TeslaV100 GPU)
12台TitanXp伺服器(每台配備8個TitanXp GPU)
56台GTX1080Ti伺服器(每台配備8個GTX1080Ti GPU)
12台存儲伺服器(每台伺服器配置12個硬碟插槽)
一套分散式存儲(可用容量800TB)
一套集中式存儲(可用容量1.2PB)
6台100Gbps Infiniband交換機
6台萬兆乙太網交換機
根據上面的清單,初步估算伺服器的預算佔整體80%以上。由於伺服器配置比較簡單,這裡就不做重點分析了。
項目拓撲結構
伺服器和存儲的數據傳輸連接採用100Gbps Infiniband網路。標書里要求存儲要支持Infiniband業務介面,二叔經過一番查找,初步排除了選用國外品牌的存儲產品可能性。發現國內很多高性能的科研項目都有個共同特點,就是偏愛採用Infiniband的技術。
分散式存儲需求
幾個比較有意思的指標
擁有屬於自身品牌的IEEE OUI地址段。貌似網路廠商才會去做這個事情,要有這個地址段每年交$2500就行,二叔認為華為和華三最喜歡把這類東東寫進標底。存儲產品要這玩意幹嘛?有點意思。
N+M配比或者副本數。這個是存儲領域常用的糾刪碼技術,二叔通過百度文庫查了一下資料,華為Oceanstor 9000系列產品就採用類似的技術(見下面的截圖)。
支持三重檢驗的RAID方式。用糾刪碼技術就可以實現,請查看文章末尾糾刪碼技術簡單介紹。
100Gbps InfiniBand接入,支持RDMA協議。存儲節點之間用Infiniband互聯是高端存儲常用的技術。貌似DellEMC Isilon目前只支持40Gbps Infiniband,華為的產品參數里沒有說明支持Infiniband的帶寬是多少。華為的產品參數為什麼老藏著掖著呢?
採購需求沒說明幾個節點。二叔這裡非常疑惑為啥沒說明要採用幾個分散式存儲節點。通過標底里要求的480GB SSD ≥8個,判斷至少需要8個節點。
磁碟數≥168,可用容量≥800TB,磁碟容量≤6TB。如果按照上一條的推導,應該每個節點至少有21個6TB磁碟。如果每節點支持24盤位的話,那麼也就是23x6TB+1x480GB SSD的組合。
讀寫聚合帶寬均≥10GB/s。如果每個節點提供2個萬兆,那麼至少要5個分散式存儲節點,才能提供大於10GB/s帶寬。根據上面的推倒,8個節點完全可以滿足10GB帶寬的需求。
華為Oceanstor 9000產品截圖
如果按照招標法貌似需要有3個產品滿足才能進行招標吧,看上去只有華為一家產品可以滿足。
集中式存儲需求
幾個關鍵的指標
與分散式存儲設備同一品牌。如果分散式存儲不滿足,即使這個滿足,估計投標的時候也會被扣分。
雙控制器架構,且至少支持8個控制器擴展。這是華為和華三系慣用的標底作風呀。明明是個中端存儲需求,非要來個可以擴多控。不過DellEMC SC系列產品也可以滿足這個需求。
支持存儲級雙活容災功能。如果一套存儲,這個功能沒有用武之地,搞科研這個功能有啥用?只能說明標底寫的好。貌似目前只有華為和DellEMC SC系列的中端存儲產品可以同時滿足8控和雙活容災。
300GB 10000轉企業級SAS硬碟≥4或480GB SSD硬碟≥4塊。這個很有趣,難道是用來做臟數據存儲的?有點像是DellEMC的VNX或是Unity產品設計。不過貌似華為的OceanStor系列存儲也是這麼設計的。
7200轉企業級NL-SAS硬碟≥185塊,NL-SAS硬碟容量≤8TB。DellEMC Unity產品目前不支持8TB磁碟,但SC產品支持。
支持FTP、NFS、CIFS等介面;支持塊協議,支持FC、iSCSI協議。這就是統一存儲需求,如果存儲系統本身不支持,可以外加NAS網關來實現。
二叔吐槽:這幾乎是個高端存儲的指標,但實際使用卻又是個中端存儲的需求,就是要把國外存儲廠商給踢出局。國內擁有自研能力的存儲廠商其實很容易就實現這些指標需求,因為他們沒有歷史的包袱,突破國外存儲廠商對於產品市場等級的定位。
簡單了解糾刪碼(Erasure Code)
副本策略和糾刪碼是存儲領域常見的兩種數據冗餘技術。相比於副本策略,糾刪碼具有更高的磁碟利用率。 Reed-Solomon碼是一種常見的糾刪碼。
RS碼的特點:
低冗餘度,高磁碟利用率。
數據恢復代價高。 丟失數據塊或者編碼塊時, RS需要讀取n個數據塊和校驗塊才能恢複數據, 數據恢復效率也在一定程度上制約了RS的可靠性。
數據更新代價高。 數據更新相當於重新編碼, 代價很高, 因此常常針對只讀數據,或者冷數據。
工程實踐中,一般對於熱數據還是會使用多副本策略來冗餘,冷數據使用糾刪碼。
Hadoop 3.0
看到這個項目分散式存儲的標底,跟Hadoop 3.0版本是多麼的接近呀,只不過沒有體現NameNodes,目前很多廠商的分散式存儲都是基於Hadoop架構來設計的。Hadoop 3.0版本於去年12月份正式發布,簡單的分享幾個增強特性。
Apache Hadoop 3.0.0在前一個主要發行版本(Hadoop 2.x)中包含了許多重要的增強功能。
HDFS支持糾刪碼(Erasure Coding)
支持多於2個的NameNodes
MapReduce任務級本地優化,採用基於內存的計算,提升性能。
TAG:全球大搜羅 |