當前位置:
首頁 > 科技 > 谷歌讓程序員接受忍者訓練

谷歌讓程序員接受忍者訓練

如果你想在每一個產品中都使用人工智慧,你最好重新訓練一支程序員大軍。


Carson Holgate 正在接受忍者訓練。


這不是武俠世界——她已經做到了。26歲的 Holgate 得到了第二條跆拳道黑帶。這次是演算法黑帶。好幾個星期 Holgate 都沉浸在一個程序中,這場比身體上的格鬥更強大的訓練教授她的是機器學習(ML)。谷歌 Android 部門的工程師 Holgate 是今年機器學習忍者項目(Machine Learning Ninja Program)的18名程序員之一,該項目從他們的團隊中挑選有天賦的程序員參加,以《安德的遊戲》的模式進行訓練,來教授給他們人工智慧技術。即使這會讓他們寫的軟體更難以理解。

谷歌讓程序員接受忍者訓練



Carson Holgate,谷歌工程師,正在機器學習忍者訓練中


「我們的口號是,你想成為機器學習忍者嗎?」幫忙管理這個項目的谷歌機器學習團隊的產品經理 Christine Robson 說 。「我們邀請谷歌的員工加入機器學習團隊,與導師坐在一起,花6個月時間研究機器學習,同時做一些項目,並從項目實踐中學習經驗。」

對於約四年前帶著計算機科學和數學學士學位來到谷歌的 Holgate 來說,這是一個掌握軟體領域最熱門的分支的機會:使用學習演算法(學習者)並用大量數據來「教授」軟體完成任務。多年來,機器學習被認為是一種只屬於少數精英的學科。但現在這個時代結束了,最近的結果表明:由模仿生物大腦運作方式的神經網路驅動的機器學習,是賦予計算機以人類力量甚至超人力量的正確途徑。谷歌致力於在內部擴張精英團隊,並期望將其變成一種常態。對於像 Holgate 這樣的工程師,忍者項目是躋身技術前沿的機會——從最優秀的工程師那裡學習最先進的技術。「這些人正構建著荒唐的模型並且擁有博士學位。」她掩飾不住聲音中的畏怯。她甚至得慢慢接受這個項目將其學生稱為「忍者」的事實。「起初,我很害怕,但是我學會接受了它,」她說。


谷歌 60000 名員工中幾乎有一半是工程師,所以這是個小項目。但是該項目象徵著這家公司的認知轉換。雖然長久以來機器學習就是谷歌技術的一部分,而谷歌已經僱傭了不少該領域頂級專家,但是這家公司從 2016 年開始似乎變得對這項技術更感興趣了。在去年年底的一次電話會議上,谷歌總裁 Sundar Pichai 提出了這家公司的新願景:「機器學習是核心,是我們重新思考我們所做的事情的變革方式。我們正想盡辦法將它應用到我們所有產品中:搜索、廣告、YouTube 或應用商店。我們仍處於初期階段,但你可以發現,我們正在以系統化的方式將機器學習應用到所有的地方。


顯然,如果谷歌想在它所有的產品中應用機器學習,它需要掌握這項與傳統編程方式完全不同的技術的工程師。正如 Peter Domingos 在機器學習領域非常受歡迎的《The Master Algorithm》一書中所寫的,「機器學習是一項朝陽技術,是一種自我構建的技術。」編寫出這樣一個系統你需要做如下工作:識別正確的數據,選擇正確的演算法,確保你構建了成功運行的正確條件,最後相信這個系統的工作能力(當然這對於程序員來說很困難)。


「用這種方式思考如何解決問題的人越多,我們就會做得越好,」谷歌的機器學習團隊領導者 Jeff Dean 說。他估計現在在谷歌的 25000 名工程師中,只有幾千人精通機器學習。或許是百分之十。他希望這個比例接近百分之百。「如果每個工程師都至少有一些機器學習的知識就好了,」他說。


他認為這會變成現實嗎?

「我們正打算嘗試,」他說。


經過多年,John Giannandrea 已經是谷歌機器學習領域的關鍵人物,另外他最近還成為了谷歌搜索部門的負責人。但是 2010 年來谷歌的時候,他對於機器學習或神經網路並沒有太多了解。2011 年左右,一些來自神經信息處理系統峰會(Neural Information Processing Systems ,簡稱 NIPS)的新聞讓他感到非常震撼:似乎在每年的 NIPS 上,總有一些團隊會宣布使用機器學習顛覆此前一直難以突破的問題,比如翻譯,語言識別,或視覺問題等。令人驚訝的事情正在發生。「我第一次聽說這個 NIPS 峰會時,它並不出名,」他說。「但是在過去的三年里,這個領域從學術到工業的參會者數量激增。去年大約有 6000 人參加。」


Jeff Dean : 谷歌權威計算機科學家


這不僅促進了神經網路演算法的發展,也帶來了來自摩爾定律效應的更強大的計算能力,還有從谷歌、Facebook 等企業的海量用戶行為中獲取的數據也出現了指數級增長 ,機器學習不斷提高的新時代開始了。Giannandrea 與一些人一樣,相信機器學習是谷歌的關鍵。與他持有相同意見的還有谷歌大腦(Google Brain)的聯合創始人 Dean ,谷歌大腦是谷歌長期研究部門 Google X (現在就是簡單稱為 X)發起的神經網路項目。


谷歌迫不及待地擁抱機器學習的熱情不僅僅意味著編程技術的轉變,更是對科技作出的鄭重承諾——承諾將賦予計算機從未擁有過的高超能力。這項技術的最前沿是受到大腦結構啟發的圍繞複雜的神經網路構建的「深度學習」演算法。谷歌大腦是深度學習上的努力嘗試,而谷歌 2014 年 1 月以 5 億美元買下的人工智慧企業 DeepMind 同樣把重點放在研究深度學習上。打敗圍棋世界冠軍的 AlphaGo 系統就是 DeepMind 設計的,這粉碎了人們對智能機器表現的期待,引發了對可怕的智能機器和殺人機器人的一波又一波的擔憂。

對於「人工智慧將會殺死我們」陣營,雖然 Giannandrea 不屑一顧地將他們看作不太了解情況的 Cassandra 先知(希臘神話中不被人相信的女先知),但 Giannandrea 同樣認定,不管是在醫療診斷還是在汽車駕駛領域,機器學習系統都將會是顛覆性的。雖然機器學習不會取代人類,但它會改變人性。


Giannandrea 舉例說明了機器學習的力量,比如 Google Photos, 這款產品的定義特徵是一種奇特的——甚至讓人煩擾——的能力,即要將用戶特別指出的某物的圖像定位出來。讓我看看邊境牧羊犬的圖片。「人們第一次體驗這種能力的時候,他們會認為正發生著一些不同的事情,因為計算機不再只是通過計算為你生成推薦內容,或者建議你看什麼視頻了。」Giannandrea 說,「事實上計算機正在理解圖片中的內容。」他解釋道,通過這個學習過程,計算機「知道了」邊境牧羊犬長什麼樣子,還會找到這種類型的狗在小時候、年老的時候、毛髮長的時候和剪毛後的照片。當然,人也可以做到這點。但沒有一個人能夠將 100 萬個樣本分類和同時識別出 1 萬種狗的品種。但機器學習系統可以。系統學到了一個品種,就能用同樣的技術識別剩下的 9999 種。「這是個真正新的領域。」Giannandrea 說,「在某些狹窄領域內,你可以看到一些人認為這些學習系統實現了超人級的表現。」


不可否認的是,谷歌一直都很理解機器學習的概念,谷歌的創始人更是追隨人工智慧力量一生的信徒。谷歌產品中已經融入了機器學習,雖然最近神經網路的關注度更高一些。(早期的機器學習經常依賴於一種更直接的統計方法。)


事實上,谷歌給工程師教授機器學習的內部課程已經超過十年時間了。2005 年初,當時負責搜索業務的 Peter Norvig 向研究科學家 David Pablo Cohn 建議,他應該調查谷歌是否可以採用卡耐基梅隆大學組織的項目中的在線課堂。Cohn 的結論是,只有谷歌自己才能教授這樣的內部課堂,因為谷歌的運營規模遠遠超過其他機構(可能國防部除外)。因此,Norvig 在 43 號樓(搜索團隊當時的總部)預訂了一個大房間,每周三舉行一次兩小時的會議,就連 Jeff Dean 也參加了幾次。「那是全世界最好的課堂。」Cohn 說,「他們都是比我更優秀的工程師!」這個課程火了,局面甚至有些失控,印度班加羅爾辦公室的人直熬到下半夜才能打進預訂電話。幾年以後,一些谷歌人一起將這些課程做成了短視頻,不再進行現場會議。Cohn 相信,這可能是 MOOC (大規模開放式在線課程)的前身。接下來的幾年裡,谷歌還進行了其它幾次機器學習訓練的嘗試,但這些嘗試缺乏條理和連續性。2010 年 Cohn 離開谷歌之前曾說,谷歌的機器學習 「突然變成了第一要務。」

Cohn 的這句話直到2012年才真正付諸實踐,Giannandrea 當時有個想法,要「弄一大堆做這個的人」,把他們放到一棟單獨的樓里,已經從 X 部門「畢業的」谷歌大腦(Google Brain)也加入了這個團隊。「我們將很多團隊整個搬過來,讓他們在一座樓里工作,還買了個很棒的新咖啡機。」他說,「之前研究所謂的感知(perception)——即聲音、語音理解等——的人現在要跟之前研究語言的人一起探討。」


漸漸地,能夠體現工程師在機器學習方面的付出的谷歌流行產品越來越多。因為主要的機器學習領域包括視覺、語音、聲音識別、翻譯,因此毫不奇怪地,機器學習成為了語音搜索、翻譯、照片等的關鍵部分。更讓人關注的工作是讓機器學習無處不在。Jeff Dean 是 Big Table 和 MapReduce 等顛覆性系統的共同創建者。他說,他和他的團隊開始進一步理解機器學習,正在以更加雄心勃勃的方式進行探索。「之前,我們可能會在一個系統中的幾個子組件中採用機器學習」他說,「現在。我們其實在用機器學習取代整套系統,而不是為每個部分構建更好的機器學習模型。」Dean 說,如果他要在今天重寫谷歌的基礎架構,那麼架構的很多內容將不是用編碼,而是用學習獲得。


Greg Corrado, Google Brain 的聯合創建者, 與產品組一起工作將人工智慧添進他們的軟體中


同時,機器學習還讓之前不可想像的產品功能成為了可能。比如,去年11月新發布了 Gmail 的智能回復(Smart Replies)功能。剛開始,谷歌大腦項目的聯合創始人 Greg Corrado 與 Gmail 工程師 Bálint Miklós 進行了一次對話。Corrado 之前曾與 Gmail 團隊合作過,一起研究在垃圾郵件檢測和郵件分類中機器學習演算法的使用,但 Miklós 提出了一個更激進的方法。如果團隊發明通過機器學習自動為郵件生成回復的方法,讓移動用戶免於在小鍵盤上敲下回復的麻煩,這怎麼樣?「我當時其實驚呆了,這個提議看起來太瘋狂了。」Corrado 說,「但後來我覺得,我們或許可以用正在做的神經網路預測技術實現這一點。而且一旦我們意識到存在可能,我們就必須去嘗試。」


谷歌讓 Corrado 和他自己的的團隊,以及 Gmail 團隊保持緊密合作,這更增加了實現的可能性。機器學習專家進入產品組的做法越來越普遍。「機器學習既是一門科學,也是一門藝術,」Corrado 說,「就像做飯一樣,雖然涉及到化學原理,但是要做一些真正有趣的事情,你必須要知道如何將面前的配料結合起來。」


用於語言理解的傳統人工智慧方法取決於系統中嵌入的語言規則,但這個項目中,與所有現代的機器學習一樣,該系統被填餵了足夠用於自學的數據,就像孩子一樣,「我不是跟著語言學家學習說話,而是通過聽別人說話學會的。」Corrado 說。


然而,使智能回復真正可行的是:這種成功可以很輕鬆地定義成——不是創造一個只會和用戶調情式聊天的虛擬的 Scarlett Johansson(指電影《她》中的智能操作系統) ,而是真實生活郵件的合理回復。「成功就像是,用戶覺得機器生成的備選回復是有用的,可以用作自己真正的回復。」他說。因此不管用戶是不是點擊了機器建議的回復,這些系統都能進行訓練。


然而,該團隊開始測試智能回復 的時候,用戶注意到一件奇怪的事:系統經常建議不合時宜的浪漫的回復。「其中一個失敗的模式就是,它在不知如何回復的任何時候,總會歇斯底里地傾向於說『我愛你』。」」Corrado 說,「這不是軟體漏洞,而是我們錯誤地讓它做了這件事。」該程序某種程度上學會了人類行為微妙的一面:「比如,你在走投無路的時候,說『我愛你』就會是一個很好的防禦策略。」Corrado 後來幫助將團隊的這種熱情緩和下來。


去年 11 月發布的智能回復取得了成功——現在 Gmail Inbox 應用的用戶通常不用自己打一個字,從三封推薦的郵件選擇一封就可以完成回復。這些推薦郵件的內容經常合乎情理得不可思議。手機 Inbox 用戶發送的回復中十分之一都是機器學習系統創建的。「這個產品能夠成功,我多少還是有些吃驚的」 ,Corrado 大笑著說。


在谷歌證明機器學習高效性的實例組成的稠密圖(dense graph)中,Smart Replies 只是其中的一個數據點而已。但是當機器學習成為搜索業務的重要部分的時候,或許轉折點才終於到來。搜索業務是谷歌的旗艦產品,是佔據谷歌幾乎所有收入的金庫。某種程度上,搜索一直都基於人工智慧。但很多年來,該公司最珍貴的演算法,這個曾為我們帶來「ten blue links(回復谷歌搜索請求的十條藍色鏈接)」的演算法,註定是機器學習演算法的重中之重。「因為搜索是谷歌一個非常大的組成部分,搜索的排序能力也取得了高速的進化,很多人都懷疑你是否能改變這個局面。 」Giannandrea 說。


某種程序上,這是一種文化抵制——這是讓控制狂一樣的大師級黑客採用禪式風格的機器學習方法上存在的普遍挑戰的頑固縮影。Amit Singhal 久負盛名的搜索大師曾是傳奇計算機科學家 Gerald Salton 的助手。Salton 在文檔檢索方面的開創性工作啟迪了 Singhal 幫助修改了 Brin 和 Page 的研究生代碼,將其變為可以擴展用於當今網路時代的程序。(這使他進入了「檢索者(retriever)」學院。)他從這些 20 世紀方法中梳理出了驚人的結果,並且有人懷疑是他將一些學習者帶入了這個相當於谷歌命脈的複雜系統。「在谷歌的前兩年,我在搜索質量部門工作,用機器學習提升排序能力。」David Pablo Cohn 說。「結果證明,Amit 的機構是世界上最好的一個,我們對 Amit 大腦中所有的東西都進行了硬編碼,並取得了進一步進步。沒有別的方法能超越他的了。」


2014 年初,谷歌的機器學習大師認為需要有所改變。「我們與排序團隊進行了一系列討論。」Dean 說,「我們說,我們應該至少嘗試下這個東西,看看是否會有收穫。」Dean 團隊設想的那個實驗,後來證明對搜索能力至關重要:排序中的一個文件和查詢請求的匹配程度會有多好(根據用戶是否點擊進行計算)。「我們可能只是說了句,試著根據這個神經網路計算出這個額外分數吧,看看它有沒有用。」


結果是有用的,該系統現在是搜索的一部分,名為 Rank Brain ,於 2015 年 4 月上線。谷歌還是秉持它以往的特色,在該系統究竟如何提升搜索性能上含糊不清(一些和長尾效應相關的東西?模糊請求的更好解讀?),但 Dean 說,「 Rank Brain 融入到了每次查詢中」,而且「或許不是在每次查詢中,但也是大量查詢中」都影響了實際的排名。另外,該系統效果顯著。谷歌搜索在計算排名時使用的幾百個「信號(signal)」(用戶的地理位置,或頁面的頭條與查詢的文本相匹配都可能是信號)中,Rank Brain 的有用性排名第三。


「我們成功使用機器學習將搜索做得更好了,這對公司來說是有重要價值的,」Giannandrea 說:「這引起了很多人的關注。」華盛頓大學教授、《The Master Algorithm》的作者 Peter Domingos 用另外的方式說到:「這種戰鬥一直存在於檢索者和機器學習人之間,機器學習者最終贏得了這場戰鬥。」


谷歌的新挑戰是轉換其工程團隊以使大家都熟悉機器學習——哪怕不擅長機器學習。這是現在其它許多公司也在追求的目標,尤其是 Facebook,該公司和谷歌一樣是機器學習和深度學習領域的巨鱷。對這一領域內應屆畢業生的招聘競爭是很激烈的,谷歌力圖維持其早期的領導地位;多年來,學術界都有一個笑話:即使谷歌不需要,也在聘用最頂級的學生,而這只是為了避免他們去競爭對手那裡。(這個笑話錯過了這個點:谷歌確實需要他們。)Domingos 說:「我的學生,不管是誰,總是會收到谷歌的 offer。」而這件事變得更激烈了:就在上周,谷歌宣布其將會在蘇黎世開設一個全新的機器學習研究實驗室,那會有一大堆工作崗位需要填補。


但因為學術項目還尚未產出大量機器學習專家,所以對工作人員進行再訓練是必要的。而這並不總是一件簡單的事,尤其是在谷歌這樣的公司——有很多一生時間都在用傳統編程實現「魔法」的世界級的工程師。


機器學習需要不同的思維方式。人們變成編程大師通常是因為他們是從通過實現對編程系統的完全控制中成長起來的。機器學習還需要掌握一定的數學和統計學,而這是很多編程者,甚至是那些能將程序壓縮到讓人吃驚的長度的瘋狂黑客們都從來不屑於學習的東西。


Christine Robson 的工作是向谷歌人和機器學習技術領域內的外部人士灌輸這個概念


這也需要相當程度的耐心。「機器學習模型並不是一段靜態的代碼——你要不斷給它填喂數據。」Robson 說,「我們不斷更新模型和學習、增加更多數據,還有比如像是調整我們未來做出預測的方式。它讓人感覺就是一個活生生的、有呼吸的東西。這是不同類型的工程開發。」


「實際上這是一個使用不同的演算法進行實驗的學科,或關於哪個訓練數據集在你的使用案例上工作效果真正好的學科。」Giannandrea 說,儘管他已是搜索的掌控者,但他仍然認為在內部傳播機器學習的福音仍然是他工作的一部分。「計算機科學的部分不會走遠。但對數學和統計學的關注會更多,而對編寫五十萬行代碼的關注則會減少。」


至於谷歌,這一障礙可以通過聰明的再訓練而跳過。「在訓練的一天結束時,這些模型中所使用的數學就不再那麼複雜了,」Dean 說,「對於我們在谷歌僱傭的大部分工程師而言,這都是可以實現的。」


為了進一步幫助日益增長的機器學習專家團隊,谷歌打造了一套強大的工具幫助工程師在訓練演算法時選擇正確的模型,並加速訓練和提煉的過程。這些工具中最強大的是 TensorFlow,一個能加速神經網路構建過程的系統。TensorFLow 由谷歌大腦團隊開發,Dean 與他的同事 Rajat Monga 共同參與了其發明;它能通過規範系統開發中通常很乏味和深奧的細節來幫助機器學習變得大眾化——尤其是 2015 年 12 月谷歌將其開放給公眾之後。


儘管對人工智慧社區散播的這種利他主義行為讓谷歌遭受痛苦,但它也承認熟悉其內部機器學習工具的新一代程序員對谷歌的招聘來說是相當好的。(懷疑者指出谷歌開源 TensorFlow 是為了追趕 Facebook,Facebook 在 2015 年 1 月公開發布了用於早期機器學習系統的深度學習模塊 Torch。)儘管如此,TensorFlow 的特點加上谷歌的認可,使其很快就成為了機器學習編程圈子裡的一個最愛。據 Giannandrea 說,當谷歌提供其第一個在線 TensorFlow 課程時,有 75,000 萬人報名。


谷歌仍然為它自己的程序員保留了很多好東西。在內部,該公司有一個可能無可比擬的補充機器學習的工具箱,Tensor Processing Unit(張量處理單元,TPU),其中最重要的是這個創新公司他們已經使用了多年,但直到最近才宣布出來。TPU 是一種專為運行機器學習語言程序而優化過的微處理器晶元,就像圖形處理單元(GPU)是專門為加速屏幕上像素的計算這一單一目而設計的一樣。該公司的巨型數據中心的伺服器里恐怕已有成千上萬個 TPU 了(可能只有上帝和 Larry Page 知道有多少)。通過賦予其神經網路運算以超能力,TPU 已經給谷歌帶來了巨大的優勢。Dean 說:「如果沒有它,我們完成不了 RankBrain。」


但由於谷歌最大的需求是設計和完善這些系統的人,就像該公司正在緊鑼密鼓地完善其軟體訓練工具一樣,它也在瘋狂地打磨其訓練機器學習工程師的實驗。它們的範圍從小到大。後一類包括快餐式的兩天「使用 TensorFlow 的機器學習速成班」,包含了幻燈片和練習。谷歌希望這只是初步嘗試,工程師隨後會尋找資源從而學習更多。Dean 說:「我們已經有數千人報名這個課程的下一次開課。」


其它還有一些較小的工作也在將外部人士吸引到谷歌的機器學習中。今春早些時候,谷歌啟動了 Brain Residency 項目,該項目的目的是為了將有前途的外部人士帶進谷歌大腦團隊內部進行為期一年的密集訓練。「我們將其稱之為你的深度學習事業起跳的開始,」幫助管理該項目的 Roboson 說。儘管初始項目中來自不同學科的 27 位機器學習學員中可能會有一些最終會留在谷歌,但其所聲稱的該班級的目的是將他們放歸到野外,使用他們的超能力在整個數據地球上傳播谷歌的機器學習版本。


所以從某種意義上說,在一個機器學習正在佔據舞台中心的世界裡,以人工智慧為中心的谷歌有維持自己主導地位的計劃,而 Carson Holgate 在她的忍者課程中學到內容正是以這個計劃為中心的。


她的課程開始於為期四周的新兵訓練營,在這裡谷歌最先進的人工智慧項目的產品領導人訓練他們了解將機器學習整合到項目過程中的細微之處。「我們將忍者帶進了會議室,Greg Corrado 在那裡寫著白板、解釋 LSTM(長短期記憶——一種可以創造強大的神經網路的技術)、做著誇張的手勢、展示這是到底是如何工作的、其中有什麼數學、怎麼將它用到產品中。」Robson 說,「在開始的四周里,我們做這件事的時候基本上使用到了我們有的每一項技術和我們工具箱里的每一種工具,從而讓他們能真正沉浸式地深入。」


Holgate 成功通過了新兵訓練營,現在她正使用機器學習工具在安卓系統上開發能幫助谷歌人互相交流的通信功能。她調整超參數(hyperparameter),整理她的輸入數據,剝離出停止詞(stop word)。但她已經不可能回頭了,因為她知道這些人工智慧技術就在這裡,而且是谷歌的未來,也許是所有技術的未來,或者所有事物的未來。


「機器學習,」她說,「在這裡有巨大的分量。」


請您繼續閱讀更多來自 機器之心 的精彩文章:

《經濟學人》:五大維度剖析人工智慧革命
安卓之父AndyRubin:AI和量子計算是未來
深度學習不是魔法妖怪,只是數學計算而已
人工智慧會將管理變成藝術與科學的複合體!
斑馬條紋怎麼形成的?60多年前的圖靈早已洞悉一切!

TAG:機器之心 |

您可能感興趣

訓練師帶導盲犬用餐遭拒,業者:她視力沒問題啊
顱腦損傷患者功能康復訓練流程!
用體操訓練思維來訓練
小小導盲犬接受訓練累到睡著,因為訓練項目很辛苦讓人想抱抱它們
日本忍者背後的不容易和艱辛訓練過程
前蘇聯這樣訓練體操隊員,讓人看著很難受
徒手訓練與器械訓練
受傷不忘鼓勵隊友,凱恩觀看英格蘭訓練
注意力訓練、執行功能訓練、思維訓練,遠離痴呆巧鍛煉
跑者核心 力量訓練
如何訓練才能安全不受傷?
橄欖球運動員的粗暴訓練方式,你們感受下
英軍坦克團戰術演練 救治傷員訓練血腥刺激
我部傷員小王請求歸隊,繼續完成往後訓練任務
核心訓練解鎖過程!由淺入深的練習吧
韋少訓練連主教練都要等他 身後不準有記者
遊客誤闖馬戲團訓練基地,揭開訓練員醜陋面目
給健身狂熱者們的建議之功能性訓練
揭秘伊朗「女忍者」日常訓練 手持大刀讓人不寒而慄