分布式機器學習時代即將來臨?谷歌推出「Federated Learning」
傳統機器學習方法,需要把訓練數據集中於某一台機器或是單個數據中心裡。谷歌等公司還建設了規模龐大的雲計算基礎設施,來對數據進行處理。現在,為利用移動設備上的人機交互來訓練模型,谷歌發明了一個新名詞——Federated Learning。谷歌表示,這會是機器學習的另一大方向。
那麼,什麼是 Federated Learning?
它意為「聯合學習」——能使多台智能手機能夠以協作的形式,學習共享的預測模型。與此同時,所有的訓練數據保存在終端設備。這意味著在 Federated Learning 的方式下,把數據保存在雲端,不再是搞大規模機器學習的必要前提。
最重要的一點:Federated Learning 並不僅僅是在智能手機上運行本地模型做預測 (比如 Mobile Vision API 和 On-Device Smart Reply),而更進一步,讓移動設備能夠協同進行模型訓練。
工作原理
Federated Learning 的工作方式如下:
智能手機下載當前版本的模型
通過學習本地數據來改進模型
把對模型的改進,概括成一個比較小的專門更新
該更新被加密發送到雲端
與其他用戶的更新即時整合,作為對共享模型的改進
所有的訓練數據仍然在每名終端用戶的設備中,個人更新不會在雲端保存。
整個過程有三個關鍵環節:
根據用戶使用情況,每台手機在本地對模型進行個性化改進
形成一個整體的模型修改方案
應用於共享的模型
該過程會不斷循環。
谷歌表示,Federated Learning 的主要優點有:
更智能的模型
低延遲
低功耗
保障用戶隱私
另外,在向共享模型提供更新之外;本地的改進模型可以即時使用,這能向用戶提供個性化的使用體驗。
谷歌輸入法
目前,谷歌正在谷歌輸入法 Gboard 上測試 Federated Learning。當 Gboard 顯示推薦搜索項,不論用戶是否最終點擊了推薦項,智能手機會在本地存儲相關信息。Federated Learning 會對設備歷史數據進行處理,然後對 Gboard 檢索推薦模型提出改進。
與推薦演算法很像,但模型更新先在本地發生,再到雲端整合。
技術挑戰與解決方案
谷歌表示,實現 Federated Learning 有許多演算法、技術上的挑戰,比方說:
在典型的機器學習系統中,超大型數據集會被平均分割到雲端的多個伺服器上,像隨機梯度下降(SGD)這樣的優化演算法便運行於其上。這類反覆迭代的演算法,與訓練數據之間需要低延遲、高吞吐量的連接。而在 Federated Learning 的情況下,數據以非常不平均的方式分布在數百萬的移動設備上。相比之下,智能手機的延遲更高、網路吞吐量更低,並且僅可在保證用戶日常使用的前提下,斷斷續續地進行訓練。
為解決這些帶寬、延遲問題,谷歌開發出一套名為 Federated Averaging 的演算法。雷鋒網了解到,相比原生的 Federated Learning 版本隨機梯度下降,該演算法對訓練深度神經網路的通訊要求,要低 10 到 100 倍。谷歌的核心思路,是利用智能移動設備的強大處理器來計算出更高質量的更新,而不僅僅是優化。做一個好模型,高質量的更新會意味著迭代次數的減少。因此,模型訓練能夠減少通訊需求。
由於上行速度一般比下行速度慢很多,谷歌還開發了一種比較新奇的方式,將上行通訊需求再次減少的 100 倍之多:使用隨機 rotation 和 quantization 來壓縮更新。雖然這些解決方案聚焦於訓練深度網路,谷歌還設計了一個針對高維稀疏 convex 模型的演算法,特別擅長點擊率預測等問題。
在數百萬不同的智能手機上部署 Federated Learning,需要非常複雜的技術整合。設備本地的模型訓練,使用的是迷你版的 TensorFlow。非常細緻的 scheduling 系統,保證只有用戶手機閑置、插著電、有 Wi-Fi 時才訓練模型。所以在智能手機的日常使用中,Federated Learning 並不會影響性能。
谷歌強調, Federated Learning 不會在用戶體驗上做任何妥協。保證了此前提,用戶手機才會加入 Federated Learning。
然後,該系統需要以安全、高效、可擴展、可容錯的方式對模型更新進行整合。
Federated learning 不需要在雲端存儲用戶數據。但為避免用戶隱私泄露,谷歌更進一步,開發了一個名為 Secure Aggregation、使用加密技術的協議。由於此草案,系統伺服器只能夠解碼至少 100 或 1000 名用戶參與的平均更新。在整合以前,用戶的個體更新不能被查看。
這是世界上第一個此類協議,對於深度網路層級的問題以及現實通訊瓶頸具有使用價值。谷歌表示,設計 Federated Averaging,是為了讓伺服器只需要整合後的更新,讓 Secure Aggregation 能夠派上用場。另外,該草案具有通用潛力,能夠應用於其他問題。谷歌正在加緊研發該協議產品級的應用執行。
小結
谷歌表示,Federated learning 的潛力十分巨大,現在只不過探索了它的皮毛。它無法用來處理所有的機器學習問題。對於許多其他模型,必需的訓練數據已經存在雲端 (比如訓練 Gmail 的垃圾郵件過濾器)。因此,谷歌表示會繼續探索基於雲計算的 ML,但同時「下定決心」不斷拓展 Federated Learning 的功能。目前,在谷歌輸入法的搜索推薦之外,谷歌希望根據手機輸入習慣改進語言模型;以及根據圖片瀏覽數據改進圖片排列。
對 Federated Learning 進行應用,需要機器學習開發者採用新的開發工具以及全新思路——從模型開發、訓練到模型評估。
via googleblog
※[視頻]拉脫維亞首都里加市長直播中遭打斷 不速之客竟是只貓
※蔡司Zeiss Batis 2.8/135鏡頭亮相 內置OIS 售價1萬4
※萬代推出《天空之城》飛天機械兵機甲手辦:57個關節可動
※螞蟻金服試圖緩解收購MoneyGram引發的安全問題
TAG:cnbeta |
※Maison Margiela:一場 John Galliano 對數字時代的巨大反諷
※「Syndicate」時代結束,「ArcAd」製造登場!
※梁勝:為什麼我說Kubernetes Everywhere時代已經到來
※這是屬於 Android Things 的時代
※adidas Originals 新鮮事90年代復古精神再迸發,Falcon全新時代來臨
※Google Ngram Viewer,從辭彙使用頻率中看時代變遷
※Type-c時代,HyperDrive雙系統擴展塢迎來熱潮
※Flutter、GraphQL、PWA、WebAssembly……大前端時代,你需要掌握的那些技術
※HomeFacialPro牽手王一博開啟成分護膚時代
※推倒實驗室白牆之後,Maison Margiela的新時代
※面對Envoy來勢洶洶,Nginx如何應對Service Mesh時代的挑戰?
※Virgil 時代 LV 的首款 Sneaker 長這樣
※Apple Watch Series 4消息曝光,智能手錶進入全面屏時代
※全球頂級評測網站AnandTech:華為MateBook X Pro筆記本時代已到
※華為MateBook X Pro以革新來敬時代
※掘金時代PE!曾經的甜瓜專屬 Air Jordan 2 「Melo」 即將發售!
※iPhone又一輪革命,iPhone X降價,新機結束喬布斯時代!
※Skrumble Network:區塊鏈時代的隱私回歸
※GitHub被收購,Stack Overflow在裁員:後開源時代,開源的未來往哪邊?
※GDPR時代來臨後,英國Dixons Carphone公布嚴重數據泄露事件