2000多萬的人工智慧數據中心都有些啥設備？

最新 04-25

如果把科技產業劃分為三個時代：PC 時代、移動互聯網時代和AI 時代。目前，我們處於移動互聯網時代的末期和下一個時代的早期，即以深度學習、無人駕駛為主的AI 時代。二叔前幾天看到中國科技大學類腦智能數據中心的一個中標標信息，投入2287.57萬購買相關的伺服器和存儲設備（預算是2500萬），這個感覺是用來從事人工智慧方面的科研工作。

招標書細節請複製URL進行下載http://www.ccgp.gov.cn/oss/download?uuid=96CA6540737F690B339BE0EDCCBE50

感興趣的朋友可以去下面的網址去查看詳細信息

項目需求信息

大致的需求如下：

12台TeslaV100伺服器（每台配備8個TeslaV100 GPU）

12台TitanXp伺服器（每台配備8個TitanXp GPU）

56台GTX1080Ti伺服器（每台配備8個GTX1080Ti GPU）

12台存儲伺服器（每台伺服器配置12個硬碟插槽）

一套分散式存儲（可用容量800TB）

一套集中式存儲（可用容量1.2PB）

6台100Gbps Infiniband交換機

6台萬兆乙太網交換機

根據上面的清單，初步估算伺服器的預算佔整體80%以上。由於伺服器配置比較簡單，這裡就不做重點分析了。

項目拓撲結構

伺服器和存儲的數據傳輸連接採用100Gbps Infiniband網路。標書里要求存儲要支持Infiniband業務介面，二叔經過一番查找，初步排除了選用國外品牌的存儲產品可能性。發現國內很多高性能的科研項目都有個共同特點，就是偏愛採用Infiniband的技術。

分散式存儲需求

幾個比較有意思的指標

擁有屬於自身品牌的IEEE OUI地址段。貌似網路廠商才會去做這個事情，要有這個地址段每年交$2500就行，二叔認為華為和華三最喜歡把這類東東寫進標底。存儲產品要這玩意幹嘛？有點意思。

N+M配比或者副本數。這個是存儲領域常用的糾刪碼技術，二叔通過百度文庫查了一下資料，華為Oceanstor 9000系列產品就採用類似的技術（見下面的截圖）。

支持三重檢驗的RAID方式。用糾刪碼技術就可以實現，請查看文章末尾糾刪碼技術簡單介紹。

100Gbps InfiniBand接入，支持RDMA協議。存儲節點之間用Infiniband互聯是高端存儲常用的技術。貌似DellEMC Isilon目前只支持40Gbps Infiniband，華為的產品參數里沒有說明支持Infiniband的帶寬是多少。華為的產品參數為什麼老藏著掖著呢？

採購需求沒說明幾個節點。二叔這裡非常疑惑為啥沒說明要採用幾個分散式存儲節點。通過標底里要求的480GB SSD ≥8個，判斷至少需要8個節點。

磁碟數≥168，可用容量≥800TB，磁碟容量≤6TB。如果按照上一條的推導，應該每個節點至少有21個6TB磁碟。如果每節點支持24盤位的話，那麼也就是23x6TB+1x480GB SSD的組合。

讀寫聚合帶寬均≥10GB/s。如果每個節點提供2個萬兆，那麼至少要5個分散式存儲節點，才能提供大於10GB/s帶寬。根據上面的推倒，8個節點完全可以滿足10GB帶寬的需求。

華為Oceanstor 9000產品截圖

如果按照招標法貌似需要有3個產品滿足才能進行招標吧，看上去只有華為一家產品可以滿足。

集中式存儲需求

幾個關鍵的指標

與分散式存儲設備同一品牌。如果分散式存儲不滿足，即使這個滿足，估計投標的時候也會被扣分。

雙控制器架構，且至少支持8個控制器擴展。這是華為和華三系慣用的標底作風呀。明明是個中端存儲需求，非要來個可以擴多控。不過DellEMC SC系列產品也可以滿足這個需求。

支持存儲級雙活容災功能。如果一套存儲，這個功能沒有用武之地，搞科研這個功能有啥用？只能說明標底寫的好。貌似目前只有華為和DellEMC SC系列的中端存儲產品可以同時滿足8控和雙活容災。

300GB 10000轉企業級SAS硬碟≥4或480GB SSD硬碟≥4塊。這個很有趣，難道是用來做臟數據存儲的？有點像是DellEMC的VNX或是Unity產品設計。不過貌似華為的OceanStor系列存儲也是這麼設計的。

7200轉企業級NL-SAS硬碟≥185塊，NL-SAS硬碟容量≤8TB。DellEMC Unity產品目前不支持8TB磁碟，但SC產品支持。

支持FTP、NFS、CIFS等介面；支持塊協議，支持FC、iSCSI協議。這就是統一存儲需求，如果存儲系統本身不支持，可以外加NAS網關來實現。

二叔吐槽：這幾乎是個高端存儲的指標，但實際使用卻又是個中端存儲的需求，就是要把國外存儲廠商給踢出局。國內擁有自研能力的存儲廠商其實很容易就實現這些指標需求，因為他們沒有歷史的包袱，突破國外存儲廠商對於產品市場等級的定位。

簡單了解糾刪碼（Erasure Code）

副本策略和糾刪碼是存儲領域常見的兩種數據冗餘技術。相比於副本策略，糾刪碼具有更高的磁碟利用率。 Reed-Solomon碼是一種常見的糾刪碼。

RS碼的特點：

低冗餘度，高磁碟利用率。

數據恢復代價高。丟失數據塊或者編碼塊時， RS需要讀取n個數據塊和校驗塊才能恢複數據，數據恢復效率也在一定程度上制約了RS的可靠性。

數據更新代價高。數據更新相當於重新編碼，代價很高，因此常常針對只讀數據，或者冷數據。

工程實踐中，一般對於熱數據還是會使用多副本策略來冗餘，冷數據使用糾刪碼。

Hadoop 3.0

看到這個項目分散式存儲的標底，跟Hadoop 3.0版本是多麼的接近呀，只不過沒有體現NameNodes，目前很多廠商的分散式存儲都是基於Hadoop架構來設計的。Hadoop 3.0版本於去年12月份正式發布，簡單的分享幾個增強特性。

Apache Hadoop 3.0.0在前一個主要發行版本（Hadoop 2.x）中包含了許多重要的增強功能。

HDFS支持糾刪碼(Erasure Coding)

支持多於2個的NameNodes

MapReduce任務級本地優化，採用基於內存的計算，提升性能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

※富貴女人的幾個特徵，你佔了幾個？
※曾老師散文：造墳

TAG:全球大搜羅 |