AI前線一周熱聞盤點：Uber提出深度學習訓練新方式；谷歌發布Tacotron 2打造完美TTS

最新 12-28

作者｜Jack Clark

譯者｜核子可樂

編輯｜Emily

內容導讀：

Facebook 發布論文解讀內部機器學習平台架構
百度實證深度學習規模化的可預測性
Uber 提出深度學習訓練新方式：利用遺傳演算法優化神經網路
美國國家安全戰略選定 AI 以測試對信息戰場的潛在破壞能力
谷歌發布 Tacotron 2，打造從文本到人聲的完美轉換
地平線發布面向監控和自動駕駛的人工智慧視覺晶元
Salesforce 開發人工智慧架構生成器，通過計算機自主研發有效架構

以下新聞均來自 Import.AI，內容翻譯已獲得獨家授權，未經許可，禁止轉載！

所有人都在為 AI 的全新「數據中心規模」時代而歡呼：

…Facebook 研究論文解決了在整體數據中心範圍之內運行 AI 時所面臨的諸多問題…

Facebook 公司發布了一份關於如何運行全球性 AI 服務體系的分析報告，同時探討了如此龐大的規模將對其 AI 投入生產的具體方式產生怎樣的影響。該公司將 CPU 與 GPU 並行使用，其中 GPU 負責進行大規模人臉識別、語言翻譯以及「Lumos」特徵分析服務。而在 CPU 方面，其中的一大主要工作負載在於新聞來源排名功能。Facebook 公司寫道，「計算機視覺只佔整體工作當中的很小一部分。」

分久必合:Facebook 公司利用「Caffe2」作為其生產系統，而公司內部的研究人員則主要使用 PyTorch。該公司表示，儘管其主要機器學習服務（FBLearner Feature Store / FBLearner Flow / FBLearner Predictor 等）支持多種不同 AI 框架，但其皆能夠與 Caffe 2 實現集成。

大者恆大:與其它 AI 用戶一樣，Facebook 公司同樣正在嘗試立足更大規模運行更為龐大的 AI 模型：這不僅改變了其將 GPU 伺服器進行安置與網路構建的方式，更指導其在各個領域加速對低精度訓練等任務的研究工作。此外，他們亦在想方設法利用規模化特性獲取優勢。該公司在論文中寫道，「利用某些超參數設置，我們能夠將自身圖像分類模型訓練而數量眾多的小型分體，並將其擴展至超過 256 個 GPU 之上。對於我們所掌握的其中一套大規模工作負載而言，數據並行處理已被證明可提供 4 倍的數據吞吐量、採用 5 倍機器數量（舉例來說，對於原本訓練周期超過 4 天的總計 100 套模型，此前負責訓練這批任務的機器資源池現在能夠每天訓練 20 套模型，這意味著雖然單日訓練吞吐量下降了 20%，但潛在工程進度所帶來的等待時長卻由四天縮短為一天）。」

單一 GPU 服務區實現全部訓練工作:當 Facebook 公司首次嘗試使用 GPU 進行深度學習處理時，其即在單一數據中心服務區內引入 GPU，以確保伺服器設計發生變化之後，相關團隊能夠習慣於對其加以維護。但這種作法在之後產生了一些相當不利的後果，亦引發 Facebook 公司對如何分配數據中心資源以及基礎設施作出了重新思考。

百度公司發布一系列模型大小同成效表現間相關性的經驗說明：

…又一深度學習理論的誕生…

深度學習是一門經驗性科學——我們無法完成理解神經網路中的各種屬性如何決定其最終表現能力。這意味著任何 AI 組織的日常工作都需要大量的實證性實驗作為指導。如今，百度公司的研究人員們正試圖將其對深度學習模型的規模與表現間關聯性的一些想法進行規範化。

他們寫道，「通過實證測試，只要我們擁有充足的數據與計算能力進行大型模型訓練，則可發現可預測的精確度水平。這一論斷適用於機器翻譯、語言建模、圖像分類以及語音識別這四個應用領域當中各類最先進的模型。」

結果表明，一旦研究人員們獲得了一套準確的閾值模型，即可確信通過簡單添加計算機與 / 或數據，即可在一個粗略的誤差範圍內達到 x 成效。他們解釋稱：「立足『最佳猜測』作為起點，模型錯誤將得到改善，冪律曲線遵循『不可約誤差』。我們發現模型由最初由最佳猜測主導的小型訓練集區域逐漸過渡至一個以冪律縮放為主的區域。在足夠大的訓練集當中，模型將在不可約誤差（例如貝葉斯誤差）主導的區域之內實現飽和。」

這一結論非常重要，但仍然需要更多實驗加以證明，這是因為研究人員在各種測試領域當中發現了類似的學習曲線，即「不同的應用會產生不同的冪律指數與截距。」

這種跡象也進一步表明，計算資源將變得如 AI 中的數據一樣具有戰略意義。研究人員希望能夠運行更多的經驗性測試，從而進一步將其轉化為由百度研究團隊所發布的較為正式的預判。

了解更多: 深度學習規模化擴展的可預測性，實證（百度博客）
了解更多: 深度學習規模化擴展的可預測性，實證（Arxiv）

Uber AI 實驗室中，進化無處不在：

…一系列最新論文顯示，神經進化方法具備現代性，且可通過多種方式與神經網路方法相互補充…

Uber 公司的 AI 研究團隊發布了一系列與神經進化方法的擴展與增強相關的論文——這無疑是 Uber 研究員 Ken Stanley（NEAT 以及 HyperNEAT 等項目創始人）對其長期技術關注方向的進一步延伸。神經進化之所以受到現代 AI 研究人員們的高度關注，是因為其提供了一種新的方法以利用計算能力將簡單演算法引入其它更為複雜的難題當中——而不必發明新的演算法以解決其中某些局部下限。利用進化方法，實驗結果的成功與失敗往往僅取決於問題當中所應用的實際計算量。

探索: 研究人員們展示了如何利用新型搜索與質量多樣性演算法的交替進一步調整對進化策略（簡稱 ES）演算法的探索過程。他們還引入了新的思路以改善大型神經網路的進化過程。
理論: 研究人員們將 ES 計算的近似梯度與隨機梯度下降（簡稱 SGD）進行比較，同時設計工具以更好地預測 ES 成效如何隨規模及並發性水平產生變化。
大型計算無處不在:他們寫道，「對於有興趣轉向深度網路的神經進化研究人員而言，以下幾個重要重要因素值得加以考量：首先，這類實驗需要比以往更多的計算資源 ;對於這批新論文中提到的實驗，我們經常需要使用數百甚至數千個同時運行的 CPU。然而，對更多 CPU 或 GPU 的需求不應被視為一種負擔 ; 相反，從長遠角度來看，向大規模並行計算中心進行規模化演變將非常簡單，這意味著神經進化有可能在不久的未來發揮出更為可觀的潛力。」
了解更多: 歡迎來到深度神經進化時代 (Arxiv).
了解更多: 遺傳演算法，訓練深度神經網路強化學習能力的另一有力選項 (Arxiv).
了解更多: 通過輸出梯度對深度神經網路與遞歸神經網路進行安全進化.
了解更多: 關於 OpenAI 進化策略與隨機梯度下降間的關係 (Arxiv).
了解更多: ES，並不僅僅是一種傳統的有限誤差逼近器 (Arxiv).
了解更多: 通過尋求新型搜索代理改進對深度強化學習進化策略的探索.

美國國家安全戰略選定 AI 以測試對信息戰場的潛在破壞能力:

…AI 有能力從 NSS 報告當中挑選出虛假新聞並實現輔助監控…

在世界各國都在公布日益複雜且更為詳細的國家 AI 發展戰略的同時，美國政府則在採取「一切照舊」的處理方式。根據 NSS 發布的說明，目前美國政府僅在兩個方面明確提到與 AI 相關的議題——其一為與創新相關的領域（涵蓋一系列不同技術應用），其二則為國家安全。而後一點則存在諸多分歧：美國國家安全局在「信息公報」一節中明確指出，AI 屬於美國國家安全所面臨的一種潛在威脅。

「敵對方將個人與商業來源信息同基於人工智慧（簡稱 AI）以及機器學習的情報收集及數據分析能力加以結合，這將給美國帶來更為高企的國家安全風險。國家安全局表示，入侵美國商業及政府組織的行為將為敵對方提供更多與數據及目標受眾相關的見解。舉例來說，中國將數據與人工智慧結合起來，對公民的國家忠誠度評級，並利用這些評級確定工作內容等等。恐怖組織繼續藉此進行意識形態層面的宣傳活動，建立仇恨情緒並使其行動合法化，同時利用先進的通訊工具招募新兵並鼓勵更多美國人乃至我們的其他合作夥伴參與此類攻擊。俄羅斯利用信息作為其網路攻勢的重要組成部分，用以影響全球輿論。其輿論影響活動將機密情報活動同虛假帳號及國有媒體、第三方中間機構以及付費社交媒體用戶或者說『水軍』雜糅在一起。美國在打擊敵對方的信息利用行為方面一直表現得疲軟無力。美國的研究工作缺乏持續性重點，且一直缺少具備適當培訓經歷的專業人員。好消息是，美國各私營部門有意對此提供支持，從而擴大我們代表著寬容、開放與自由的發聲能力。」

了解更多: 美利堅合眾國國家安全戰略 (PDF).

再見，值得依賴的通話來電 ; 你好，Tacotron 2:

… Wavenet 的加持讓人類語音合成成為可能…

谷歌公司已經發布了 Tacotron 2 文本到語音（簡稱 TTS）軟體的研究成果，該款軟體被用於生成與人類相近的音頻合成樣本。

結果: 一套模型的平均意見得分（簡稱 MOS）為 4.53，而專業記錄型話語的得分則為 4.58。大家可以點擊此處體驗部分 Tacotron 2 音頻樣本。通過個人體驗，我無法分辨人聲與計算機生成音頻間有何區別。研究人員還對其系統合成音頻同實際音頻進行了並行評估，並發現人們對於 Tacotron 2 樣本反而略為認可，而對人類真實對話僅表示可以接受。不過目前還需要投入進一步工作以訓練系統處理較為罕見的單詞與發音，同時弄清如何在運行時對音頻進行調節，從而使特定音頻樣本包含高興、悲傷或者其它情緒。

展望未來，這類系統將能夠重新訓練合成語音，從而利用相對較少的數據匹配目標發言者，而後弄清如何利用口音或者其它語音標籤以調節成果並更好地模擬目標語言習慣。

了解更多: 立足梅爾譜圖預測調節 WaveNet 以實現自然 TTS 合成.

中國晶元初創企業地平線機器人科技發布監控晶元:

…此款晶元側重於監控與自動駕駛等領域…

地平線機器人科技（Horizon Robotics）公司發布了「Journey 1.0 處理器」，並在公告中指出該晶元「能夠同時準確檢測並識別行人、機動車輛、非機動車輛以及交通標誌。基於該晶元的智能駕駛平台支持 260 種交通標誌的檢測，且對交通信號燈、車道以及相鄰車道紅綠燈的識別精度可達 95% 以上。」

該公司指出，每塊晶元「可以同時檢測 200 個可視目標」。

中國晶元產業爆髮式增長：中國目前正迎來一大批國內初創企業的蓬勃發展，且這些公司專攻特定 AI 推理與訓練晶元的開發。事實上，中國正在全國範圍內力爭創造更多具有半導體專業知識的廠商，並藉此向傳統晶元企業英特爾、AMD、IBM 以及英偉達等發起挑戰。

Salesforce 公司研究人員開發人工智慧架構生成器，其高性能、非標準「BC3」單元令人驚嘆:

…神經架構通過特定領域的語言搜索實現監督增強…

Salesforce 公司的神經架構搜索方法依賴於人工智慧特定領域語言（簡稱 DSL）的形式進行人工監控。其基本思路在於，人類可以指定 AI 組件以評估一段短小的購物清單，而系統會計算出能夠解決任務的組件最佳數量及組合。

神經架構搜索的缺點在於，其可能相當昂貴——除了需要為嘗試不同架構而投入計算資源外，我們還需要在測試架構時提供更為龐大的存儲與計算儲備。Salesforce 公司的研究人員們試圖通過利用遞歸神經網路以迭代方式預測新架構的成效，從而減少對模型實際全面測試的需求。

結果: Salesforce 公司所使用的架構訓練方法，在成效上與語言理解及機器翻譯等最新技術成果相當，其幾乎完全通過計算機自主研發出有效的架構，而不必再由機器學習研究人員負責設計。

神秘的「BC3」單元:與所有優秀的研究論文一樣，他們也在其中包含了一個小秘密：即 BC3 單元的發現，其在各類高性能模型中被廣泛採用。他們寫道，此單元具有對「兩個 Gate3 運算符進行意外分層」的神奇特性。「雖然只使用核心 DSL，但 BC3 仍然與人類的常規 RNN 架構直覺有所不同。」

神經架構搜索技術目前似乎還處於初級階段，但相信會在未來兩年中扮演極為重要的角色。這是因為此類技術將能夠從谷歌 TPU 等新型快速計算機硬體以及來自 AMD、英偉達乃至英特爾的新型處理器中獲得巨大助益。

https://jack-clark.net/

作者 Jack Clark 有話對 AI 前線的讀者說：我們對中國的無人機研究非常感興趣，如果您想要在我們的周報里看到更多有趣的內容，請發送郵件至：jack@jack-clark.net。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI漫遊 的精彩文章:

※病毒安全女博士：基於深度學習的DGA惡意域名分類演算法
※年度回顧：Uber2017年開源項目亮點概述
※不止Google vs.Nvidia：深度學習引領AI晶元大戰
※2017開發者盤點：是我在解決AI的問題，不是AI解決我的問題
※2018年，AI晶元之戰將打響

TAG:AI漫遊 |