亞馬遜揭開SageMaker AI服務的面紗,分享能夠大規模地訓練機器學習模式
AiTechYun
編輯:nanan
亞馬遜今天揭開了其SageMaker AI服務的帷幕,揭開其客戶如何能夠大規模地訓練機器學習模式,同時降低成本。該公司採用了新穎的技術,在提供類似性能的同時,保持了所需的計算能力。
當SageMaker接受數據來訓練一個模型時,它使用的是一個流式演算法,它只會讓一個數據傳遞給它得到的數據,而其他的演算法可以在需要的時間和處理能力上看到指數的增長,但亞馬遜的演算法卻沒有。當數據流進系統時,該演算法調整其狀態——這是SageMaker中用於培訓特定系統的信息中存在的統計模式的持久表示。
不過,這種狀態並不是一種訓練有素的機器學習模式:它是將數據輸入給SageMaker的一種抽象,然後可用來訓練模型。這提供了許多有用的優勢,比如讓亞馬遜更容易地分發模型的訓練。SageMaker可以在訓練過程中比較多台機器上處理不同數據的相同演算法的狀態,以確保所有系統正確共享他們所饋送數據的表示形式。
同樣的表示使得優化機器學習模型的超參數變得更加容易。那些控制模型某些功能的參數是創建最好的機器學習系統的關鍵。傳統上,數據科學家將通過每次重複訓練具有不同參數的相同模型並選擇產生最準確最終結果的模型來優化這些參數。
然而,這可能是一個耗時的過程,特別是對於使用大量數據構建的模型而言。在SageMaker的幫助下,亞馬遜不需要做所有繁重的再訓練,因為它只能使用流式演算法的狀態。
所有這些都是為了創建一個能夠處理全球範圍內運行的、令人難以置信的大型數據集的系統,這對於亞馬遜的AI項目以及客戶的需求都非常重要。
該公司的AI副總裁Swami Sivasubramanian表示,亞馬遜的流式演算法與其他傳統的機器學習方法相比,在準確性方面更具有可用性。
目前很難準確評估亞馬遜的做法,因為該公司還沒有發布描述SageMaker流式演算法如何工作的技術論文。Sivasubramanian表示,亞馬遜目前暫停發布,但他指出,該公司已經發布了描述其技術成就的論文(包括他與公司首席技術官Werner Vogels合作的論文)。
不出所料,Sivasubramanian對亞馬遜未來的SageMaker計劃仍保持緘默態度。但該公司認為AI是未來產品開發的一個關鍵領域,因此我們很可能會看到它從這裡繼續發展。
※ClickHouse如何結合自家的GNDT演算法庫CatBoost來做機器學習
※機器學習之監督和無監督學習
TAG:機器學習 |