谷歌發布最新官方年報，回首谷歌大腦2017年的9大事件

最新 01-14

1月12日凌晨，谷歌大腦負責人Jeff Dean，按照慣例，發布了2017年度的谷歌大腦年度總結。本次總結分為兩部分，主要會重點介紹2017年的一些工作，包括一些基礎研究工作，以及開源軟體，數據集和機器學習新硬體的更新。

在第二部分中，將深入到機器學習可能隊某些特定領域產生巨大影響的研究，如醫療保健，機器人和一些基礎科學領域，以及關於創造性、公平性和包容性的工作。小智君也將持續關注谷歌年度報告的最新消息。

核心研究：

谷歌大腦的一個重要關注點是：通過研究，提高機器自身的理解力以及在機器學習領域解決新問題的能力。小智君根據Jeff的原文，為大家提煉出了2017年谷歌大腦9個方面的工作。

一、AutoML

自動化機器學習的目標是為計算機開發出能夠自動解決新機器學習問題的技術，而無需人類專家進行逐一干預。如果我們想要真正的智能系統，這就是最基本的能力。谷歌大腦開發了一種通過強化學習和進化演算法設計神經網路體系結構的新方法，使用了增強學習和進化演算法，將這項工作擴展到對ImageNet分類和檢測的最新成果的同時，也展示了如何自動學習新的優化演算法和有效的激活函數。同時正積極與谷歌Cloud AI團隊合作，將這項技術帶給谷歌客戶，並繼續推動這項研究在多個方向上推進。

利用AutoML發現的網路進行對象檢測

二、語音理解與生成

另一個主題是開發新技術來提高計算系統的理解及生成人類語言的能力，包括我們與谷歌語音團隊合作，改進了谷歌端到端語音識別方法，使谷歌語音識別系統的相對詞錯率降低了16％。這項工作有一個好處，即需要結合很多獨立的研究思路。

用於語音識別的Listen-Attend-Spell端到端模型的組件

谷歌大腦還與谷歌的機器感知團隊合作開發了一種新的文本到語音生成的方法（Tacotron 2），極大地提高了生成語音的質量。

Tacotron 2的模型架構

三、新型機器學習演算法

Jeff表示谷歌將繼續開發新的機器學習演算法和方法，包括

Capsules（在執行視覺任務時，作明確地尋找激活功能協議，以作為評估多個不同雜訊假設的方式）；

Sparsely-gated Mixtures of Experts（實現了超大規模但仍有計算效率的模型）；Hypernetworks（使用一個模型的權重來生成另一個模型的權重）；

新型多模模型（使用相同模型執行音頻、視覺和文本輸入等多任務學習）；

基於注意力的機制（取代卷積和循環模型）；

符號和費符號學習的優化方法；

通過離散變數反向傳播的技術以及對強化學習演算法的改進。

四、計算機的機器學習

2017年，谷歌大腦已經展示了如何使用強化學習來進行放置決策，以便將計算圖映射到比人類專家更好的一組計算設備上。

Jeff講到：與Google Research的其他同事一樣，我們在「學習索引結構的案例」（The Case for Learned Index Structures）這篇文章中，展示了神經網路比傳統數據結構（如B-trees、哈希表和Bloom過濾器）速度更快，更小。我們相信，我們只是掌握了核心計算機系統中使用機器學習的皮毛，正如NIPS關於機器學習系統和系統的機器學習討論會上所述。

作為Index結構的學習模型

五、隱私與安全

機器學習及其安全與隱私的一直是谷歌大腦的研究焦點。在一篇論文中，谷歌大腦展示了機器學習技術可以應用於提供不同的隱私保護的方法，而這篇論文獲得了ICLR 2017年的最佳論文獎。同時還調查了對抗樣本的屬性，包括在物理世界中展示對抗樣本，以及如何在訓練過程中大規模利用對抗樣本，使模型更適用於對抗樣例。

六、了解機器學習系統

雖然谷歌大腦在深度學習方面取得了不錯的成績，但更重要的是理解它為什麼起作用，以及什麼時候不起作用。最近他們發現，目前的機器學習理論框架無法解釋深刻的學習方法的令人印象深刻的結果。

為了更好地理解深層架構下的訓練是如何進行的，谷歌大腦發表了一系列分析隨機矩陣的論文，因為它們是大多數訓練方法的出發點。了解深度學習的另一個重要途徑是更好地衡量它們的表現。在最近的一項研究中，谷歌大腦展示了良好的實驗設計和統計嚴謹性的重要性，比較了許多GAN方法後發現，許多流行的生成模型增強並沒有提高性能。

同時谷歌大腦正在開發能更好地解釋機器學習系統的方法。2017年3月，其與OpenAI，DeepMind，YC Research等合作，宣布推出Distill，這是一本致力於支持人類對機器學習的理解的在線開放性科學期刊。它在機器學習概念的清晰闡釋，和在其文章中出色的互動式可視化工具方面廣受好評。

特徵可視化

七、ML研究的數據集

MNIST、CIFAR-10、ImageNet、SVHN和WMD等開放數據集快速推動了機器學習的研究進展。谷歌大腦和谷歌研究院一起，在過去一年裡一直積極探索開放有趣的新數據

集，用於開源機器學習領域的研究。我們提供了規模更大的有標籤數據集，包括：

YouTube-8M：使用4,716個不同類別注釋的700萬YouTube視頻；

YouTube-Bouding Boxes：來自210,000個YouTube視頻的500萬個bounding boxes；

Speech Commands數據集：包含數千個說話者說的短指令詞；

AudioSet：200萬個10秒的YouTube視頻剪輯，標記有527個不同的聲音事件；

Atomic Visual Actions（AVA）：57,000個視頻剪輯中的21萬個動作標籤；

Open Images：使用6000個類別標記的900萬個創作共用許可的圖像；

Open Images with Boundign Boxes：600個類別的120萬個bounding boxes。

八、TensorFlow開源軟體

TensorFlow用戶分布圖

2015年11月，開源了第二代機器學習框架TensorFlow，希望機器學習社區能夠從機器學習軟體工具的投資中受益。2017年2月，發布了TensorFlow 1.0。

2017年2月，谷歌大腦舉辦了首屆TensorFlow開發者峰會，450多人參加了在山景城舉辦的這次活動，超過6500人觀看了在線直播，包括在全球35國家和地區舉辦了超過85場的本地活動。2018年3月30日，Jeff透露，谷歌將在灣區舉辦另一場TensorFlow開發者峰會。

九、TPU

TPU提供高達180 teraflops的機器學習加速

深度學習的計算量非常大，但它們有兩個特殊的性質：由密集的線性代數運算（矩陣倍數，向量運算等）組成；對精度容忍度高。我們意識到，可以利用這兩個屬性來構建能夠非常有效地運行神經網路計算的專用硬體。

谷歌大腦為谷歌的平台團隊提供了設計輸入，他們設計並生產了第一代Tensor Processing Unit（TPU）：一種旨在加速推理深度學習模型的單晶元ASIC（推理是使用已經過訓練的神經網路，與訓練不同）。這款第一代TPU已經在我們的數據中心部署了三年，並且已經被用於谷歌搜索查詢，谷歌翻譯，谷歌相冊，AlphaGo與柯潔的圍棋比賽中。

Cloud TPU Pod可以提供高達11.5 petaflops的機器學習加速

Jeff認為以這種方式縮短研究周轉時間將大大提高Google的機器學習團隊以及所有使用雲端TPU的組織的工作效率。並表示：我們很高興能夠讓更多的工程師和研究人員在2018年使用TPU！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧觀察 的精彩文章:

※谷歌：AI系統需要「自我懷疑」能力，方能作出更好的決定！

TAG:人工智慧觀察 |