當前位置:
首頁 > 最新 > 淺談數據中心優化問題中資源利用率的預測

淺談數據中心優化問題中資源利用率的預測

淺談數據中心優化問題中資源利用率的預測

周昕 I 文

冉泳屹 I 技術審稿

隨著數據量的不斷膨脹,數據中心市場規模呈指數級增長。其中,新加坡作為東南亞的數據中心樞紐,占該地區數據中心 60%以上的市場份額,年增長率為10%[1]。 由於新加坡的數據中心密度高、體量大,其2012年的耗電量佔2012年全能電量總消耗的7%,相比之下同年美國的數據中心電量消耗僅為2%。此外,新加坡屬熱帶氣候、常年高溫,更增加了數據中心的運維難度和成本。根據文獻[2]中的研究結果估計,新加坡有潛力大幅度提高數據中心的能效。若採用恰當的技術,到2030年能累計節省60億新幣的能源成本。

因此,優化數據中心、提高能效是我們研究項目的最終目的。我們提出了面向IT子系統的Thermal-aware 任務調度:在考慮IT相關特徵的同時,也把溫度及功耗 (room-level、rack-level、server-level) 作為影響我們任務分配的關鍵所在,從而節省能源同時又不損失計算性能。與傳統方法不同,我們選擇利用DRL的演算法來尋找最優的控制策略。如圖1所示,在DRL演算法中,我們的目標environment(如數據中心) 處於某一個狀態(state,如CPU利用率、溫度、功耗等) 。此狀態下,agent通過某種策略對目標環境施加一個動作(action,如分配新任務給某個伺服器)使得environment的state發生變化,而新的state將作為選擇下一次action的關鍵因素。為有效衡量該次action的優劣,我們引入reward(如平均溫度、功耗、熱點數量、平均CPU使用量等)的概念。如reward大,那麼該action未來被選擇的概率就大,反之則小。DRL演算法通過agent和environment之間的迭代互動,來達到優化控制策略的目的。

圖1 Outline of the DRL algorithm in our project

但將演算法的訓練過程部署到實際的數據中心中是不現實的,風險太大。因此,我們利用從真實數據中心(National Supercomputing Centre Singapore)採集到的數據,採用深度學習的方法,構建一個模擬真實數據中心的environment,並利用該environment來訓練和測試DRL演算法。在數據中心IT設備的眾多特徵中,CPU利用率是其中最為關鍵的,因為CPU的利用率是影響伺服器功耗和溫度的主要因素。我們採用LSTM[3]演算法來對CPU利用率進行預測,從而精確模擬利用率和負載變化之間的複雜關係。LSTM是一種時間遞歸神經網路,非常適合用來處理和預測時間連續數據。如圖2所示,前三個time step的和作為LSTM網路的輸入,其中和分別為time step 的CPU利用率和被佔用core數。我們的目標數據中心,擁有16個rack,每個rack配備72個計算伺服器。根據實驗結果顯示(如圖3所示), 預測模型的MAE(Mean Absolute Error)為0.397861%。

圖2 LSTM for predicting CPU utilization

圖3 Result of prediction of CPU utilization (Blue: predicted, Red: real)

在我們的研究項目中,目標數據中心的所有伺服器都是HPC(High Performance Computer),向用戶提供複雜、高強度的計算服務(如生物DNA匹配、地理環境模擬、氣候環境模擬等)。因此,用戶向數據中心申請core並開始執行計算任務後,CPU的利用率變化幅度小。我們必須強調這是預測模型能得到高預測精度的重要原因之一。但這並不意味這在所有情況下,CPU利用率都穩定。例如,根據Google公開的workload trace[4],在提供類似web service和存儲服務時,CPU的利用率是很不穩定。如圖4所示。

圖4 Examples of the CPU utilization from Google

一般情況下,相似的任務類型會有近似的特性,比如CPU利用率的變化。因此,我們可以把CPU utilization的採樣作為特徵值,對所有任務進行聚類,把CPU利用率變化特性相似的任務作為一類。如圖5所示,同一類任務,擁有相似的CPU利用率的變化曲線。因此,針對每一類任務,我們都可以利用LSTM來訓練一個預測模型,從而達到精確預測的目的(測試結果如圖6所示)。

圖5 CPU utilizations of the tasks in the same cluster

圖6 The result of prediction of CPU utilization based on clustering

對CPU利用率的預測,不僅可用來建立DRL的訓練環境模型,還能利用到其他啟發式的傳統數據中心任務調度優化演算法中。此外,如能採集到用戶ID、任務類型、任務是否多線程等數據的話,更能提高該方法的可行性和預測精度。

參考文獻

[1] Singapore is top data center hub in SE Asia: report.

[2] Green Data Cetnre Technology Roadmap, 2014.

[3] F. A. Gers, J. Schmidhuber, and F. Cummins. Learning to Forget: Continual Prediction with LSTM. Neural Computation, 12(10): 2451-2471, 2000.

[4] C. Reiss, J. Wilkes, J. L. Hellerstein, 「Google-cluster traces:format+schema」, Google Inc., White Paper, November 2011.

本文版權歸作者所有。

新加坡南洋理工CAP組


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 南洋理工CAP組 的精彩文章:

智慧城市,智能建築:樂康福智能管理系統
走進強化學習

TAG:南洋理工CAP組 |