「每日推薦」為何總能擊中你的心坎?
小編每天擠上地鐵後的第一件事
就是打開某雲音樂,
帶上耳機開始播放「每日推薦」
因為無論哪一天播放的歌都是我所喜歡的
但時間久了小編也有疑問...
原來我不是一個人!
「機器學習」這個概念太廣泛了,以至於小白如我都不知道該往哪個方向挖掘。
於是,我鼓起勇氣,向「高冷男神」發出了疑問。
一個小時過去了,只收到一句話個單詞的回復:個性化推薦。
真棒!那小編就自力更生吧~(別問,問就是愛過)
個性化推薦
「每日推薦」里,不僅有我聽過的喜歡的歌,更有我喜歡但沒聽過的歌。這如知己般的「每日推薦」其實就是「個性化推薦」的產物,其最基本的原理就是基於用戶信息和項目信息(內容),對用戶推薦其可能喜歡的音樂。
訓練和推理
個性化推薦的本質是特定場景下人和信息的高效率的連接:左邊是內容,右邊是用戶,中間通過推薦引擎連接兩者。
而建立連接的方法是:利用用戶和信息的特徵,在兩者之間進行匹配,這就是訓練;建立連接的目的是為了向用戶推薦可能喜歡的內容,這就是推理。
在機器學習中,「訓練」模型是迭代完成的,通過加權的多層演算法運行大量數據,再將其與特定目標結果進行比較,并迭代調整模型/權重,最終生成一個「訓練」模型。而推理是該訓練模型的成果或實時應用,是根據新數據做出相關預測的過程。
例如,在音樂類應用的推薦演算法中,通常提取用戶和音樂不同維度的特徵值,包括音樂的標籤、曲風、類型等,根據權重和關係建立模型,再通過大量數據,進行無數次的「訓練」,得到一個訓練好的匹配模型。
這一過程因極大的數據量和迭代次數,需要極高的計算能力。同時也需要在極短的響應時間內給出結果,所以也需要極低的延時。
訓練和推理因其不同的數據處理方式,對加速器的要求也有所不同:
〓訓練工作負載需要極高的計算能力,而推理工作負載需要更低的延時。
現如今,爆炸式的數據增長必然帶來數據模型的急速增長,在高並發場景下,所有訓練和推理都必須在極短的時間內完成。而且,為了提高用戶體驗,對訓練和推理精度的要求也越來越高。對伺服器的計算能力來說,這是一個很大的挑戰。
什麼樣的伺服器才能扛得住以上種種挑戰呢?
訓練和推理性能兼具,高效靈活且節能。
這樣的「神仙」伺服器是真實存在的么?
「神仙」伺服器
高度靈活的戴爾易安信DSS8440
戴爾易安信DSS8440是一款高度靈活的伺服器,旨在為訓練和推理提供超高計算性能。用戶可以安裝4個,8個或10個NVIDIAV100GPU,以獲得機器學習模型的高訓練性能;或者安裝8個,12個或16個NVIDIAT4GPU,帶來推理性能的提高。
極致性能
V100GPU
DSS8440專為複雜訓練工作負載而設計,可配置多達10個NVIDIATesla V100 GPU,能夠以高度迭代的方法快速處理多層矩陣,適用於複雜工作負載,如圖像識別,面部識別和自然語言處理等。
當使用最常見的框架(如TensorFlow)和流行的卷積神經網路模型(如圖像識別)時,其性能相比昂貴得多的競品伺服器相差只在5%以內。
高吞吐量
DSS8440的低延時本地存儲(STAT和NVMe-最大支持32TB)和強大吞吐能力(9個x16IO通道)有助於快速獲取機器學習的成果。
DSS8440 拓撲圖——可擴展至10個V100GPU
更高功耗比
隨著計算資源的增加,伺服器面臨的另一個挑戰就是耗能。
下圖可見,配置有8個V100GPU的DSS8440與同類競品相比,其效率最高提升13.5%。這意味著,在執行卷積神經網路(CNN)訓練進行圖像識別時,在耗能相同的情況下,DSS8440可處理更多圖像。隨著時間的推移,用戶就可以節省大量成本。
平衡之選
T4GPU
而配備NVIDIAT4 GPU的DSS8440則可提供高性能的推理能力,並帶來能耗和成本的節省。用戶可以選擇配置8、12或16個T4GPU作為計算資源。
雖然T4GPU整體性能不如V100GPU(320核VS640核),但足以提供出色的推理性能,而且其耗能還不到V100GPU的30%——70瓦/GPU。
NVIDIAT4Tensor Core GPU
在小批量作業中,多個T4GPU的性能要強於單個V100GPU,但功耗卻幾近相同。例如,四個T4GPU的性能可以達到單個V100GPU的3倍以上,但兩者成本相近;兩個T4GPU的性能幾乎是單個V100GPU的兩倍,但其耗能和成本卻只有單個V100GPU的一半。低延時
使用ResNet50模型,配置T4GPU的DSS8440的吞吐量為每秒平均近3900張圖像,延時2.05毫秒(批處理為8)。
從下圖中可以看出,批處理量為32的延時要比批處理量為8的高3倍,而吞吐量卻相差很少。可見,若想同時擁有高吞吐量和低延時,批處理量為8是最佳選擇。
多租戶為用戶帶來效率和靈活性
DSS8440是理想的多租戶解決方案,它可以跨多個工作負載、多個用戶或多個系統,提供機器學習訓練或推理。
其靈活性使用戶可以根據需要在同一伺服器上同時運行不同堆棧的機器學習軟體(如模型、框架和操作系統),同時使用不同數量的加速器。而且,多租戶還可以使數據中心簡化機器學習服務的管理。
運籌帷幄
靈活應對多種挑戰
多種IO選項
數據訪問對於機器學習訓練至關重要。為此,DSS8440伺服器具配置了8個全高和1個半高x16PCIe插槽,適用於伺服器後部。(第十個插槽保留給RAID存儲控制器使用)。
大容量、高速的本地存儲
同時,DSS8440最多可配置10個存儲驅動器,其中2個固定為SATA,2個固定為NVMe,另外6個可以是SATA或NVMe,從而提供了靈活的本地存儲配置。
有了DSS8440,在幫助客戶應對諸多挑戰的同時,還能提高效率,降低成本。無論是在線零售模式檢測、醫學領域癥狀診斷,還是深空數據分析,更強勁的計算能力能夠為客戶更快獲得更好的結果——改善客戶服務質量,幫助治癒患者,並促進研究進展。
懂你的,不止「每日推薦」。
還有戴爾易安信DSS8440。
相關內容推薦:戴爾DSS:小體積釋放大力量
相關產品:DELLEMC DSS 8440伺服器
(7357412)