谷歌科研成果 2018 年年終總結(上篇)
雷鋒網 AI 科技評論按:年終總結可能會遲到,但不會缺席!
聖誕節+元旦假期過後,谷歌資深 Fellow、谷歌 AI 負責人 Jeff Dean 代表所有谷歌的研究部門發出了他們的 2018 年度科研研究年終總結。這一年,谷歌的科研人員們在人工智慧、量子計算、計算圖形學、演算法理論、軟體系統、TPU、開源軟體與數據集、機器人技術、AI 應用、醫療保健等許多方面做出了許多新的成果,不僅有許多論文,更有許多實際的技術產品。雷鋒網 AI 科技評論在 2018 年中也曾單獨報道過其中的許多項目。
同樣由 Jeff Dean 撰寫的 2017 年穀歌大腦年終總結見這裡 上篇下篇。如今谷歌把人工智慧的相關研究開發拓展到了新品牌「谷歌 AI」下面,曾經的谷歌大腦負責人 Jeff Dean 也就成為了谷歌 AI 的負責人。
現在我們把這篇 Jeff Dean 代表全體谷歌科研人員撰寫的谷歌科研成果 2018 年年終總結全文翻譯如下。
打開今日頭條,查看更多圖片谷歌資深 Fellow、高級副總裁、谷歌 AI 負責人 Jeff Dean
對於谷歌的研究團隊來說,2018 年又是充滿激情和幹勁的一年。我們的技術研究成果在許多個不同的方向上繼續開花結果,包括計算機科學方面的基礎科研成果和論文、科研結果在谷歌的更多新興方向中的應用(比如醫療保健和機器人)、對開源軟體的貢獻以及和谷歌的產品開發團隊之間的緊密協作,所有這些的目標都是為了創建更多有用的工具和服務。下面我們來一起看看 2018 的一些成果,以及對未來的一年做一些展望。更詳細盡的匯總可以參見我們的 2018 年論文發表清單(https://ai.google/research/pubs/?year=2018)。
道德準則和 AI在過去的幾年中,我們共同見證了 AI 領域的重大進步,欣喜地看到了 AI 對谷歌的產品產生了積極的影響,這些產品也在日常生活中為谷歌的數十億用戶提供了更多幫助。對於我們這些在 AI 領域工作的人來說,我們非常在意 AI 是否成為了這個世界變得更好的推動力 —— 也就是說,它的使用是符合人類道德的,它用來解決的問題也是對這個社會有益的。2018 年我們發布了谷歌 AI 準則,它也帶有一系列負責任的 AI 應用的示範樣本,描繪出了 AI 應用實踐的技術指導。這些準則和示範也一同構成了評價我們谷歌自己的 AI 產品開發的體系框架,我們希望別的組織機構也能夠運用這些準則規範他們自己的思路。需要說明的是,由於這個領域的發展速度飛快,我們在某些準則下提供的示範樣本(比如「為了避免產生和加強不公平的偏見」、「為了對人類可解釋」),也會隨著我們在機器學習公平性和模型可解釋性等新領域開展研究而不斷變化、不斷更新。這些研究研究成果反過來也會讓谷歌的產品不斷進步,讓它們更具包容性、更少帶有偏倚,比如我們就已經減少了谷歌翻譯中的性別偏倚,也探索並發布了內容更為廣泛多樣的圖像數據集和模型(https://ai.google/tools/datasets/open-images-extended-crowdsourced/),以便讓計算機視覺模型在整個地球中更加多樣化的環境中都可以工作。更進一步地,這些努力也讓我們得以把最佳實踐分享給更廣泛的研究群體,比如我們的機器學習快速課程中的 Fairness Module。
造福整個社會的 AI如今大家都已經知道,在社會的許多方面、在許多重要的社會問題上,AI 都有潛力帶來劇烈的影響。我們在 AI 洪水預測方面的研究就是一個絕佳的例子,它展示了 AI 可以如何在真實世界的問題上幫助人類。在多個谷歌內部團隊的合作下,這項研究的目標被定義為「為洪水發生的可能性和可能覆蓋地區提供準確、細時間粒度的信息」,而那些在洪水高危地區生活的人們就可以根據這些信息作出更好、更及時的判斷,能更好地保護自己、保護自己的財產。
洪水預警系統已經在印度的部分地區投入使用另一個例子是我們研究如何預測地震的餘震,我們展示了機器學習模型預測餘震地址可以比傳統的基於物理模型的方法準確得多。這項研究還有一個也許影響更為深遠的方面,那就是因為我們設計的機器學習模型是具備可解釋性的,科學家們得以在這個模型的幫助下對餘震的活動作出更好的觀察,這不僅讓餘震的預測變得更加準確,也讓我們對餘震本身有了更好的了解。
谷歌之外也有許多我們的夥伴。許多研究者和谷歌的研究員、工程師一起藉助 TensorFlow 之類的開源軟體鑽研各種各樣的科學和社會學問題,比如用 CNN 識別座頭鯨的聲音,發現新的系外行星,識別生病的木薯等等。
為了鼓勵這個領域產生更多的新點子,我們與 Google.org 一同發起了「谷歌 AI 社會影響競賽」,參加比賽的個人和組織研究需要一些從想法轉化為現實之後可能會帶來重大社會影響的項目,然後他們可以獲得總數為 2500 萬美元的資助資金,而且可以獲得谷歌研究科學家、工程師、其它專家的指導。
輔助性技術在我們圍繞機器學習和計算機科學展開的研究中,有很大一部分都是希望幫助我們的用戶們更快、更高效地達到他們的目標。通常這都需要科研團隊和各種產品團隊之間展開合作,研究成果也發布成為各種各樣的產品功能和設置。其中一個例子是谷歌 Duplex,這個系統的建設需要我們把自然語言處理、對話理解、語音識別、文本轉語音、用戶理解以及高效的用戶界面 UI 設計多個方面的研究成果集中整合,而它的最終效果是,只需要用戶對著自己的手機詢問「能不能幫我預定明天下午 4 點做頭髮」,一個虛擬助手就會替你打電話到理髮店敲定相關的細節。
我還可以舉一些例子,比如智能寫作 Smart Compose,這個工具會通過預測模型給出寫作提示,幫助用戶寫作郵件,寫作過程可以更快、更輕鬆;聲音搜索 Sound Search,它構建在 Now Playing 功能的基礎上,可以快速、準確地幫助用戶找到環境中正在播放的音樂;還有安卓系統中的 Smart Linkify,它展示了我們可以使用運行在移動設備上的機器學習模型分析屏幕上正在顯示的文本,理解文本內容之後把它劃分為不同種類的小節,接著就可以直接點擊文本訪問對應的應用程序。
Smart Linkify 智能地把連續的文本分成了一段地址 + 一個時間
我們目前的研究中一個重要的關注點就是讓谷歌助手這樣的工具支持更多的語言,以及讓系統更好地理解語義相似性,就是說即便使用了完全不同的方式來表達,我們也希望它能理解人們希望表達的概念和想法是相同的。我們在提升語音合成質量以及缺乏訓練數據的文本轉語音任務中的研究成果,未來也可能為谷歌的產品增加新的功能。
量子計算量子計算是一種正在逐漸發展壯大的計算範式,它有能力解決經典計算機無法解決的非常困難的問題。在過去的幾年中我們一直積極地在這個方向上進行科學研究,我們也相信,量子計算機展現出解決多種問題能力(所謂的量子霸權)的那個時刻即將到來,而這也將成為這個領域的分水嶺。2018 年裡,我們的量子計算實驗產生了一系列令人興奮的新成果,其中包括一個新的 72 位的量子計算設備 Bristlecone,它極大地拓展了量子計算機可以解決的問題的大小。我們距離量子霸權的距離越來越近了。
位於 Santa Barbara 的谷歌量子 AI 實驗室中,研究科學家 Marissa Giustina 正在安裝一塊 Bristlecone 晶元我們也發布了 Cirq,這是一個為量子計算機開發的開源編程框架,我們也藉助它探索了如何在量子計算機上運行神經網路。最後,我們分享了研究量子處理器性能漲落的問題的及經驗和技巧,也分享了關於「量子計算機有可能可以成為神經網路的計算性基礎設施」的想法。2019 年裡,我們期待在量子計算空間里做出更多驚喜的成果。
自然語言處理對於自然語言處理領域,2018 年裡谷歌收穫頗豐,我們有許多科研成果,也有許多關注於產品的內部團隊合作成果(https://ai.googleblog.com/search/label/Natural%20Language%20Understanding)。我們在 2017 年發布的 Transformer 基礎上做了改進,得到了一個新的時間並行的模型版本,我們把它稱作Universal Transformer,它在包括翻譯、語意推理等許多自然語言任務中都展現出了極大的性能提升。我們也開發了 BERT,這是首個深度雙向、無監督的語言表示,它只需要在普通的文本語料上預訓練,然後就可以通過遷移學習精細調節到許多種不同的自然語言任務上。相比之前的最佳表現的模型,BERT 在 11 種自然語言任務中都取得了顯著的表現提升。
在極具挑戰的 GLUE benchmark 中,相比之前的最佳水平模型,BERT 把分數的絕對值提升了 7.6%除了和許多谷歌內部的產品團隊合作開發了上文提到的 Smart Compose 和 Duplex 之外,我們也探索改進了谷歌助手,讓它能夠更好地處理多語言混用的場景。我們的最終目的是希望所有的用戶都可以與它自然地用語言交流。
感知我們在感知方面的研究攻克了讓計算機理解圖像、聲音、音樂和視頻等有難度的問題,同時也為圖像捕捉、壓縮、處理、創意表達以及增強現實提供了更多更有力的工具。2018 年,我們把新技術融合進了谷歌照片 app,它可以更好地整理用戶在意的照片內容,比如人和寵物。谷歌 Lens 和谷歌助手則可以幫助用戶了解自然世界、實時回答問題,谷歌圖像中的 Lens 還有更多新功能。我們曾經表示過,谷歌 AI 的使命中有一個重要的方面就是要給人類賦能、讓他們從技術中受益,這一年中我們也對谷歌 API 做了許多升級,改進了它的功能、更新了它的基礎組件。一些例子包括谷歌雲機器學習 API 中的視覺和視頻的升級的新功能,以及通過 ML Kit 實現的許多運行在移動設備上基礎組件,提供了面部識別相關一些功能。
谷歌 Lens 可以幫助你更好地了解身邊的世界。比如,Lens 就分辨出了這條小狗的種類
2018 年中,我們對學術研究的貢獻包括了深度學習三維場景理解方面的進展,比如立體變換(stereo magnification,https://arxiv.org/abs/1805.09817),它可以為一個場景生成全新角度、而且具有逼真畫質的圖像。我們也有一些持續進行中的研究,可以更好地理解圖像和視頻,也就可以幫助用戶更好地發現、組織、增強以及改進谷歌產品(谷歌圖像、YouTube、谷歌搜索等)中出現的圖像和視頻。這一年中值得一提的改進包括:用於快速聯合姿態估計以及人體實例分割的自底向上模型(https://arxiv.org/abs/1803.08225),一個用於複雜動作可視化的系統(http://mosculp.csail.mit.edu/),一個可以對人和物體之間的的時間-空間關係建模的系統(https://ai.google/research/pubs/pub47219),以及藉助蒸餾(https://arxiv.org/abs/1812.08249)和 3D 卷積技術(https://ai.google/research/pubs/pub47220)改進視頻動作識別。
在語音領域,我們提出了一種方法用於語義音頻表示的無監督學習(https://ieeexplore.ieee.org/abstract/document/8461684),也提出了「高表現力、仿人類語音生成」的重大技術改進(Tacotron,https://arxiv.org/abs/1803.09047)。同時,多模態感知也是一個越來越重要的研究話題。「通過看來聽」(https://arxiv.org/abs/1804.03619)綜合了輸入視頻中的視覺和音頻線索,然後可以抽取、增強視頻中指定說話者的聲音。這種技術有廣泛的應用場景,從視頻增強和識別、到視頻通話、再到更好的聽力輔助設備都可以運用,尤其適合同時有多個人說話的場景。
在資源有限的平台上實現感知也越來越重要。我們的第一代移動平台計算機視覺模型 MobileNets 已經在學術界和工業界得到了廣泛應用,而我們也在 2018 年發布了第二代模型 MobileNetV2(https://arxiv.org/abs/1801.04381)。在 MorphNet (https://arxiv.org/abs/1711.06798)中,我們提出了一種高效的方法學習深度神經網路的架構,它在符合計算資源限制的情況下為圖像和音頻模型提供了全面的性能改進,而更新的自動網路生成方面的研究則表明了可以針對硬體設計表現更加優異的模型。
計算圖像學在過去的幾年中,手機攝像頭畫質以及易用性的提升可以說是嘆為觀止。其中一部分改進自然來自於手機攝像頭使用的感光器越來越先進,但同時更大的功勞在於計算圖像學領域的科學技術改進。我們谷歌的研究團隊發表了自己的最新研究成果,也和谷歌的安卓系統團隊、消費級硬體團隊緊密協作,把這項成果搭載在最新的 Pixel 手機以及其它的設備上,並最終送達用戶手中。早在 2014 年,我們就發布了 HDR+ 技術,它讓手機快速連拍多張曝光不同的照片,然後在軟體中對齊這幾張照片,並通過計算軟體把它們合併為一張照片。最初 HDR+ 的設計目的是讓照片具有比只拍一張照片更大的動態範圍,後來,快速連拍多張照片並基於它們做計算性分析已經成了一種通用的模式,2018 年的手機攝像頭基於這種模式開發了更多的功能,比如 Pixel 2 手機中的運動照片,以及動作靜止照片中的增強現實模式。
動作靜止照片中的增強現實模式中的一隻小雞今年,我們在計算圖像學研究上的主要努力是為手機攝像頭開發了一種新的能力,夜視,可以讓 Pixel 手機在夜裡看得更清晰,這項功能也獲得了媒體和用戶的一致好評。當然了,夜視僅僅是谷歌團隊開發的幫助用戶拍出完美照片的眾多功能之一,這些功能都基於軟體、服務於攝像頭,它們包括:用機器學習帶來更好的人像模式照片,通過超級清晰變焦看得更清楚、更遠,以及用 Top Shot 和谷歌 Clips 捕捉特殊瞬間。
左:iPhone XS;右:帶有夜視功能的 Pixel 3 手機演算法與理論演算法是谷歌各個系統背後的支撐骨架,各種演算法決定著從谷歌旅行的路程規劃系統,到谷歌雲的持續哈希系統等等的所有谷歌產品的表現。在過去的一年中,我們繼續在演算法和理論方面進行著深入的科學研究(https://ai.google/research/pubs/?area=AlgorithmsandTheory&year=2018),從理論基礎到實用演算法,以及從圖挖掘(https://ai.google/research/teams/algorithms-optimization/graph-mining/)到保持隱私的計算方法。我們在優化演算法方面的探索覆蓋了許多領域,從用於機器學習的連續優化,到分散式的組合優化。在前一個領域,我們研究訓練神經網路時的隨機優化演算法的收斂性的論文獲得了 ICLR 2018 的最佳論文獎,這篇論文展示了熱門的基於梯度的優化方法存在的問題(比如 ADAM 的一些變種),同時也為一些新的基於梯度的優化方法提供了紮實的理論基礎。(https://ai.google/research/pubs/pub47409)
對於分散式優化問題,我們研究了如何改進組合優化問題中的輪數和溝通複雜度,比如通過輪數壓縮(https://ai.google/research/pubs/pub46793)和核心組的圖中的匹配(https://ai.google/research/pubs/pub46793),以及子模最大化(https://ai.google/research/pubs/pub46927)和 k 核分解(https://ai.google/research/pubs/pub47742)。對於更偏嚮應用的方面,我們開發了新演算法解決通過草圖大規模設定封面(https://ai.google/research/pubs/pub46927),以及解決具有萬億條邊的圖的平衡分區以及層次化分簇問題。我們研究在線投遞服務的論文(https://doi.org/10.1145/3178876.3186104)得到了 WWW 2018 的最佳論文提名。還有,我們的開源優化平台 OR-tools (https://developers.google.com/optimization/)也在 2018 Minizinc 限定編程比賽中贏得了 4 面金牌。
對於演算法選擇理論,我們提出了一些新的模型(https://doi.org/10.1145/3159652.3159702),也對重建問題(https://doi.org/10.1137/1.9781611975031.38)和多項式分對數的學習問題(http://proceedings.mlr.press/v80/chierichetti18a.html)做了一些調研。我們也研究了神經網路可以學習到的函數的類型(https://doi.org/10.4230/LIPIcs.ITCS.2018.22),以及如何使用機器學習的思想改進經典在線演算法(http://papers.nips.cc/paper/8174-improving-online-algorithms-via-ml-predictions)。
對於谷歌來說,了解一些有強有力的隱私保證的演算法是有著重要意義的。在這樣的背景下,我們開發了兩種新的方法,通過迭代(https://ai.google/research/pubs/pub47118)和隨機排序(https://ai.google/research/pubs/pub47557)進一步分析並增強差分隱私。我們也使用差分隱私技術設計可以感知動機的學習方法(https://ai.google/research/pubs/pub46913),它們在博弈中很魯棒。類似這樣的學習技巧都在高效的在線市場設計中得到了應用。我們在市場相關的演算法領域也有一些新的研究,比如幫助廣告商測試廣告投放的動機兼容性的技術(https://ai.google/research/pubs/pub46968),以及優化 app 內廣告的刷新方式的技術(https://ai.google/research/pubs/pub46847)。我們也在重複拍賣問題中把當前最優的動態機制又向前推進了一步,我們的動態拍賣對於缺少未來預期(https://ai.google/research/pubs/pub47744)、預測有雜訊(https://ai.google/research/pubs/pub47745)、異質買家行為(https://ai.google/research/pubs/pub46969)等狀況都可以保持魯棒,我們的結果還可以拓展到動態雙拍賣的場景中(https://ai.google/research/pubs/pub47734)。最後,在在線優化和在線學習魯棒性問題中,我們開發了新的在線分配演算法處理帶有流量峰值的隨機輸入(https://dl.acm.org/citation.cfm?id=3105446),以及對損壞的數據魯棒的修補演算法(https://ai.google/research/pubs/pub47732)。
軟體系統我們對於軟體系統的研究很大部分都繼續與構建機器學習模型有著種種聯繫,尤其是與 TensorFlow 有許多聯繫。比如,我們針對 TensorFlow 1.0 發布了動態控制流的設計和實現(https://dl.acm.org/citation.cfm?id=3190551)。我們在後來的研究中介紹了一個稱作 Mesh TensorFlow 的系統,通過它可以很方便地定義具有並行模型的大規模分散式計算,這樣的系統可以包含多達幾十億個參數。另一個例子是,我們還發布了一個用於可拓展的深度神經排序的 TensorFlow 庫。
TF 排序庫支持多項目評分架構,是傳統的多項目評分的拓展我們也發布了 JAX(https://github.com/google/jax),這是一個帶有加速器的 NumPy 的變種,它可以支持 Python 函數的任意階自動微分。雖然 JAX 並不包含在 TensorFlow 中,它所使用的部分底層基礎軟體其實是和 TF 相同的(比如 XLA,https://www.tensorflow.org/xla/),而且 JAX 的一些想法和演算法也對 TF 起到了不小幫助。我們在機器學習的安全和隱私方面也做了更多研究,我們開發的安全、保證隱私的開源框架也用在了更多的 AI 系統中,比如 CleverHans (https://github.com/tensorflow/cleverhans)和 TensorFlow Privacy(https://github.com/tensorflow/privacy)。
我們看重的另一個研究方向是機器學習在軟體系統中的應用,這可以發生在許多不同的層次上。比如,我們持續地研究用層次化模型向不同的設備分配計算任務(https://openreview.net/pdf?id=Hkc-TeZ0W),以及我們參與了學習內存訪問模式的研究(http://proceedings.mlr.press/v80/hashemi18a/hashemi18a.pdf)。我們也繼續探索如何用模型學習到的索引在資料庫和存儲系統中替代傳統的索引結構。正如我在去年的總結中寫的,對於如何在計算機系統中使用機器學習,我們目前的認識其實還處在非常早期。
層次化分配器(https://openreview.net/pdf?id=Hkc-TeZ0W)對一個四層的神經機器翻譯模型的計算量的分配。其中白色表示 CPU,四種不同的彩色表示 GPU。值得注意的是,每一層的每一步計算都是分配給了多個 GPU 在執行的。這種分配方式比人類專家設計的分配方式快 53.7%。2018 年裡我們也結識了 Spectre 和 Meltdown 這兩個現代計算機處理器帶有的嚴重安全漏洞,它們也正是在谷歌的零計劃(Project Zero)團隊與其他團隊的合作中發現的。這些漏洞以及其它相關的漏洞著實讓計算機架構研究人員們忙活了一陣子。在我們持續地對 CPU 的行為建模的過程中,我們的編譯器研究團隊把他們的測量機器指令延遲和埠壓力的工具集成進了 LLVM 中,這讓編譯器得以做出更好的決定。
谷歌具有為計算、存儲和網路構建大規模、可信賴、高效的技術架構的能力,谷歌的消費者產品、谷歌的雲端服務以及機器學習模型的推理就都高度依賴於這種能力。在過去的一年中,這些方面的研究亮點包括谷歌最新進化的軟體防禦網路 WAN(https://ai.google/research/pubs/pub47191);一個獨立工作、聯邦式的查詢處理平台,它可以在以不同的文件形式存儲的數據上、在許多不同的存儲系統上執行 SQL 查詢語句(https://ai.google/research/pubs/pub47224);以及一個關於我們谷歌的代碼審查做法的詳細報告,包含了谷歌的代碼審查背後的動機、目前的慣例、開發者的滿意狀況以及挑戰(https://ai.google/research/pubs/pub47025)。
運行一個內容存儲之類的大規模網路服務需要在不斷變化的環境中做穩定的負載均衡。我們開發了一個持續的哈希方案(https://dl.acm.org/citation.cfm?id=3175309),它對於每一個伺服器的最大負載有一個嚴密、可證明的保證,我們把它部署在了谷歌雲的 Pub/Sub (https://cloud.google.com/pubsub/)上,為谷歌雲的客戶提供服務。在發布了最初版本的論文(https://arxiv.org/abs/1608.01350)之後,Vimeo 的工程師注意到了這篇論文,實現了它並把它開源到 haproxy,然後在 Vimeo 的負載均衡項目中使用它。它帶來了顯著的改進,這些演算法思想的運用大幅降低了伺服器緩存的帶寬需求,幾乎只有原先的 1/8,消除了一個重大性能瓶頸。
(未完,下半篇見這裡)
via https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html,雷鋒網 AI 科技評論編譯
TAG:雷鋒網 |