厲害!Jeff Dean曬Google Brain團隊2017成績單,真X!
谷歌大腦負責人 Jeff Dean 今天發文曬AutoML、語言理解、機器學習演算法、機器學習系統等核心研究工作成績單,全面總結谷歌大腦在2017年取得的成績。
一、自動化機器學習(AutoML)
我們開發了使用強化學習和進化演算法設計神經網路結構的新方法,並推廣到ImageNet圖像分類和檢測領域的最新成果,實現了如何自動學習新的優化演算法和有效的激活函數。
利用神經結構搜索發現卷積結構
利用AutoML發現的網路進行對象檢測
二、話語理解與生成技術,詞錯率降低16%!
開發新的技術來提高計算機理解和生成人類語言的能力,包括我們與Google speech團隊合作,對谷歌的端到端語音識別方法進行了一系列改進,將谷歌的語音識別系統的相對詞錯率降低了16%。
用於語音識別的Listen-Attend-Spell端到端模型的組件
還與谷歌的Machine Perception團隊合作開發了一種新的文本到語音生成方法(Tacotron 2),大大提高了生成語音的質量。
Tacotron 2的模型架構
三、推出新的3種優秀演算法
1.Hinton提出的capsules:稀疏門控專家混合層(實現了超大規模但仍有計算效率的模型),hypernetworks(使用一個模型的權重來生成另一個模型的權重);2.新的multi-modal模型:在同一個模型上執行音頻、視覺和文本輸入的多個學習任務;3.基於attention的機制:(卷積和循環模型的代替),symbolic和non-symbolic學習的優化方法,通過離散變數反向傳播的技術,以及一些新的強化學習演算法的改進。
四、開放8大數據集(福利呀)
MNIST,CIFAR-10,ImageNet,SVHN和WMT等開放數據集,極大地推動了機器學習領域的發展。谷歌大腦和Google Research在過去一年一直積極地為開放式機器學習研究開源有趣的新數據集,以及提供更多的大型標記數據集,包括:
YouTube-8M:使用4,716個不同類別注釋的700萬YouTube視頻
YouTube-Bouding Boxes:來自210,000個YouTube視頻的500萬個bounding boxes
Speech Commands數據集:包含數千個說話者說的短指令詞
AudioSet:200萬個10秒的YouTube視頻剪輯,標記有527個不同的聲音事件
Atomic Visual Actions(AVA):57,000個視頻剪輯中的21萬個動作標籤
Open Images:使用6000個類別標記的900萬個創作共用許可的圖像
Open Images with Boundign Boxes:600個類別的120萬個bounding boxes
YouTube-Bouding Boxes數據集樣本:以每秒1幀採樣的視頻片段,圍繞相關項目成功標識邊界框
五、TensorFlow被180多個國家被下載了超過1000萬次!
TensorFlow用戶的分布地圖
去年2月,我們發布了TensorFlow 1.0,11月,我們發布了v1.4版本,增加了以下重要功能:用於互動式命令式編程的Eager execution,用於TensorFlow程序的優化編譯器XLA,以及用於移動設備和嵌入式設備的輕量級解決方案TensorFlow Lite。預編譯的TensorFlow二進位文件已經在180多個國家被下載了超過1000萬次,GitHub上的源代碼現在已經有超過1200個貢獻者。
六、TPU比對手快15-30倍!
TPU提供高達180 teraflops的機器學習加速
大約五年前,我們認識到深度學習會大大改變我們所需要的硬體種類。深度學習的計算量非常大,但它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數,向量運算等)組成,它們對精度容忍度高。我們意識到我們可以利用這兩個屬性來構建能夠非常有效地運行神經網路計算的專用硬體。我們為Google的平台團隊提供了設計輸入,他們設計並生產了我們的第一代Tensor Processing Unit(TPU):一種旨在加速推理深度學習模型的單晶元ASIC(推理是使用已經過訓練的神經網路,與訓練不同)。
這款第一代TPU已經在我們的數據中心部署了三年,並且已經被用於每個Google搜索查詢,Google翻譯,Google相冊中的圖片,AlphaGo與柯潔的圍棋比賽中,以及其他許多研究和產品用途。去年6月份,我們在ISCA 2017上發表了一篇論文,顯示這款第一代TPU比現代GPU或CPU同類產品快15-30倍,性能/功耗約為30-80倍優化。
TAG:AI講堂 |