分布式機器學習時代即將來臨？谷歌推出「Federated Learning」

新聞 04-07

傳統機器學習方法，需要把訓練數據集中於某一台機器或是單個數據中心裡。谷歌等公司還建設了規模龐大的雲計算基礎設施，來對數據進行處理。現在，為利用移動設備上的人機交互來訓練模型，谷歌發明了一個新名詞——Federated Learning。谷歌表示，這會是機器學習的另一大方向。

那麼，什麼是 Federated Learning？

它意為「聯合學習」——能使多台智能手機能夠以協作的形式，學習共享的預測模型。與此同時，所有的訓練數據保存在終端設備。這意味著在 Federated Learning 的方式下，把數據保存在雲端，不再是搞大規模機器學習的必要前提。

最重要的一點：Federated Learning 並不僅僅是在智能手機上運行本地模型做預測（比如 Mobile Vision API 和 On-Device Smart Reply），而更進一步，讓移動設備能夠協同進行模型訓練。

工作原理

Federated Learning 的工作方式如下：

智能手機下載當前版本的模型

通過學習本地數據來改進模型

把對模型的改進，概括成一個比較小的專門更新

該更新被加密發送到雲端

與其他用戶的更新即時整合，作為對共享模型的改進

所有的訓練數據仍然在每名終端用戶的設備中，個人更新不會在雲端保存。

整個過程有三個關鍵環節：

根據用戶使用情況，每台手機在本地對模型進行個性化改進

形成一個整體的模型修改方案

應用於共享的模型

該過程會不斷循環。

谷歌表示，Federated Learning 的主要優點有：

更智能的模型

低延遲

低功耗

保障用戶隱私

另外，在向共享模型提供更新之外；本地的改進模型可以即時使用，這能向用戶提供個性化的使用體驗。

谷歌輸入法

目前，谷歌正在谷歌輸入法 Gboard 上測試 Federated Learning。當 Gboard 顯示推薦搜索項，不論用戶是否最終點擊了推薦項，智能手機會在本地存儲相關信息。Federated Learning 會對設備歷史數據進行處理，然後對 Gboard 檢索推薦模型提出改進。

與推薦演算法很像，但模型更新先在本地發生，再到雲端整合。

技術挑戰與解決方案

谷歌表示，實現 Federated Learning 有許多演算法、技術上的挑戰，比方說：

在典型的機器學習系統中，超大型數據集會被平均分割到雲端的多個伺服器上，像隨機梯度下降（SGD）這樣的優化演算法便運行於其上。這類反覆迭代的演算法，與訓練數據之間需要低延遲、高吞吐量的連接。而在 Federated Learning 的情況下，數據以非常不平均的方式分布在數百萬的移動設備上。相比之下，智能手機的延遲更高、網路吞吐量更低，並且僅可在保證用戶日常使用的前提下，斷斷續續地進行訓練。

為解決這些帶寬、延遲問題，谷歌開發出一套名為 Federated Averaging 的演算法。雷鋒網了解到，相比原生的 Federated Learning 版本隨機梯度下降，該演算法對訓練深度神經網路的通訊要求，要低 10 到 100 倍。谷歌的核心思路，是利用智能移動設備的強大處理器來計算出更高質量的更新，而不僅僅是優化。做一個好模型，高質量的更新會意味著迭代次數的減少。因此，模型訓練能夠減少通訊需求。

由於上行速度一般比下行速度慢很多，谷歌還開發了一種比較新奇的方式，將上行通訊需求再次減少的 100 倍之多：使用隨機 rotation 和 quantization 來壓縮更新。雖然這些解決方案聚焦於訓練深度網路，谷歌還設計了一個針對高維稀疏 convex 模型的演算法，特別擅長點擊率預測等問題。

在數百萬不同的智能手機上部署 Federated Learning，需要非常複雜的技術整合。設備本地的模型訓練，使用的是迷你版的 TensorFlow。非常細緻的 scheduling 系統，保證只有用戶手機閑置、插著電、有 Wi-Fi 時才訓練模型。所以在智能手機的日常使用中，Federated Learning 並不會影響性能。

谷歌強調， Federated Learning 不會在用戶體驗上做任何妥協。保證了此前提，用戶手機才會加入 Federated Learning。

然後，該系統需要以安全、高效、可擴展、可容錯的方式對模型更新進行整合。

Federated learning 不需要在雲端存儲用戶數據。但為避免用戶隱私泄露，谷歌更進一步，開發了一個名為 Secure Aggregation、使用加密技術的協議。由於此草案，系統伺服器只能夠解碼至少 100 或 1000 名用戶參與的平均更新。在整合以前，用戶的個體更新不能被查看。

這是世界上第一個此類協議，對於深度網路層級的問題以及現實通訊瓶頸具有使用價值。谷歌表示，設計 Federated Averaging，是為了讓伺服器只需要整合後的更新，讓 Secure Aggregation 能夠派上用場。另外，該草案具有通用潛力，能夠應用於其他問題。谷歌正在加緊研發該協議產品級的應用執行。

小結

谷歌表示，Federated learning 的潛力十分巨大，現在只不過探索了它的皮毛。它無法用來處理所有的機器學習問題。對於許多其他模型，必需的訓練數據已經存在雲端（比如訓練 Gmail 的垃圾郵件過濾器）。因此，谷歌表示會繼續探索基於雲計算的 ML，但同時「下定決心」不斷拓展 Federated Learning 的功能。目前，在谷歌輸入法的搜索推薦之外，谷歌希望根據手機輸入習慣改進語言模型；以及根據圖片瀏覽數據改進圖片排列。

對 Federated Learning 進行應用，需要機器學習開發者採用新的開發工具以及全新思路——從模型開發、訓練到模型評估。

via googleblog

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 cnbeta 的精彩文章:

※[視頻]拉脫維亞首都里加市長直播中遭打斷不速之客竟是只貓
※蔡司Zeiss Batis 2.8/135鏡頭亮相內置OIS 售價1萬4
※萬代推出《天空之城》飛天機械兵機甲手辦：57個關節可動
※螞蟻金服試圖緩解收購MoneyGram引發的安全問題

TAG:cnbeta |

您可能感興趣

※Maison Margiela：一場 John Galliano 對數字時代的巨大反諷
※「Syndicate」時代結束，「ArcAd」製造登場！
※梁勝：為什麼我說Kubernetes Everywhere時代已經到來
※這是屬於 Android Things 的時代
※adidas Originals 新鮮事90年代復古精神再迸發，Falcon全新時代來臨
※Google Ngram Viewer，從辭彙使用頻率中看時代變遷
※Type-c時代，HyperDrive雙系統擴展塢迎來熱潮
※Flutter、GraphQL、PWA、WebAssembly……大前端時代，你需要掌握的那些技術
※HomeFacialPro牽手王一博開啟成分護膚時代
※推倒實驗室白牆之後,Maison Margiela的新時代
※面對Envoy來勢洶洶，Nginx如何應對Service Mesh時代的挑戰？
※Virgil 時代 LV 的首款 Sneaker 長這樣
※Apple Watch Series 4消息曝光，智能手錶進入全面屏時代
※全球頂級評測網站AnandTech：華為MateBook X Pro筆記本時代已到
※華為MateBook X Pro以革新來敬時代
※掘金時代PE！曾經的甜瓜專屬 Air Jordan 2 「Melo」即將發售！
※iPhone又一輪革命，iPhone X降價，新機結束喬布斯時代！
※Skrumble Network：區塊鏈時代的隱私回歸
※GitHub被收購，Stack Overflow在裁員：後開源時代，開源的未來往哪邊？
※GDPR時代來臨後，英國Dixons Carphone公布嚴重數據泄露事件