孫劍首個深度學習博士張祥雨：3年看1800篇論文，28歲掌舵曠視基礎模型研究

新聞 04-22

新智元原創

編輯：張乾、金磊

【新智元導讀】在高智商選手雲集的AI領域，自詡靠「刷題」成功的張祥雨接連在CVPR、NIPS等頂會「中獎」，28歲就擔任小組leader，為公司開闢基礎演算法新路。為什麼曠視會把探索未來的重任交給他？

曠視把開闢基礎演算法新路的斧頭交給了28歲的年輕人。

張祥雨，曠視研究院base model組負責人，帶領組裡30多位年輕人為曠視尋找下一個兼具學術和產業價值的演算法模型。

張祥雨在VALSE 2019

在號稱平均年齡僅24歲的曠視研究院，28歲的張祥雨已經有leader的樣子：每天為團隊里來自清華、北大等名校的員工甚至實習生討論和規劃研究方向，他們的研究成果可能會決定公司下一個突破性的基礎技術。

實際上，就是這樣一個不到30歲的年輕人，在近年來深度學習推動學術和產業兩界發展的進程中，雖然身居幕後卻享有不世之功：2015年橫空出世的ResNet，張祥雨是主要作者之一，負責底層框架和編碼，跟一作何愷明打配合；之後又提出ShuffleNet，ShuffleNet憑藉輕量級低功耗和高性能，成為曠視拿下OPPO、小米等手機大廠視覺訂單的技術核武器。

現在，張祥雨又把研究重點放到了另一個領域：AutoML。AutoML自動化設計、訓練AI模型，是用「計算換智能」的新範式。如果說手工設計AI模型是坦克的話，AutoML就是飛機，可以極大地加速產品及解決方案在各行業落地，大大降低人力操作成本。

張祥雨認為，70%的AI從業者依然從事著能被機器替代的重複性工作，AutoML這項看似會讓AI從業者「失業」的工作，他們從去年就已經開始了，這項工作的意義不僅僅能讓AI自動設計AI成為現實，更重要的是，還能夠讓曠視的產品和方案找到快速落地的捷徑，提升整個行業的AI建模和訓練效率，真正實現「以非凡科技，為客戶和社會持續創造最大價值」。

孫劍的第一個深度學習博士

跟曠視研究院院長孫劍的經歷一樣，張祥雨也是一名「土生土長」的西安交大人，從本科到博士都在西安交大就讀，在大三那年（2011年），張祥雨拿下了美國大學生數學建模競賽（MCM）特等獎提名獎（Finalist），當時創下西安交大參加該項競賽以來歷史最好成績。

憑藉這次獲獎經歷，張祥雨獲得了後來到微軟亞洲研究院實習的資格。

獲得實習資格的有三人，但最終只有一個人能留下。當時還在微軟亞洲研究院擔任首席研究員的孫劍給這三人出了一道題：用一個月的時間，將人臉檢測的速度提升十倍。

這個任務現在來看比較容易實現，但當時還沒有引入深度學習，張祥雨就靠著對模型調參，用了三天左右的時間完成任務，孫劍看過之後當場決定留下張祥雨。

張祥雨之前並沒有做科研的經驗，這次有意思的實習考驗讓他初嘗到做科研的成就感。他也意識到走學術路線，需要到產業界去鍛煉。

到了微軟之後，張祥雨加入了視覺計算組，這個小組裡的每一位成員名字放在當下來看都是業界大牛：小組負責人孫劍，組員包括何愷明、危夷晨、代季峰、袁路、曹旭東、任少卿等。

在組裡，張祥雨尤其擅長編程，並且還是唯一一個會CUDA人。剛加入小組時，就憑藉這一技之長成為多個項目的核心成員，比如幫助危夷晨做Head Dance遊戲，為袁路做瀏覽器圖片布局等。

2013年，張祥雨面臨一個重要選擇：博士課題。當時受微軟亞洲研究院工作的一些影響，張祥雨傾向於做人臉這個領域。但是導師孫劍果斷讓他去做深度學習，「孫老師認為Deep learning以後必然會火，他一直非常有前瞻力，我很相信他」。

於是，張祥雨就成了孫劍組裡第一個做深度學習的博士生。

他做的第一個深度學習相關的工作就是復現深度學習經典論文AlexNet，這篇由Alex Krizhevsky和2018年圖靈獎得主Geoffrey Hinton等人完成的論文，讓深度學習和神經網路重新崛起。

張祥雨花了兩個月的時間對論文進行了復現，包括寫完底層全部code。

復現AlexNet的經歷算是深度學習的入門，之後他的主要工作是做框架、寫code。當時深度學習的框架非常少，於是張祥雨乾脆自己寫了一個，包括CPU和GPU的。

2013年底Caffe問世，為了對Caffe的模型做兼容，張祥雨就把介面也改成Caffe一樣，還起了個名字叫Caffe Pro。

這份code關鍵的一個亮點是支持圖優化，支持多卡，這為後來ResNet的誕生打下了基礎。

ResNet的誕生

在完成這份code以後，孫劍就把何愷明、任少卿、張祥雨拉到一起做深度學習，在組隊之前，何愷明做了圖像重建和哈希計算，任少卿做人臉。

經過一年的磨合，「何張任」組合在孫劍的帶領下小有所成，ECCV、TPAMI等國際視覺會議的論文中開始出現這三個二十多歲中國人的名字。

這幾位年輕人真正爆發是在2015年。

當時包括谷歌、百度在內的大廠都在參加ImageNet大規模視覺識別挑戰賽，當時人類識別圖像正確分類的誤差率為5.1%，誰能打破5.1%，就代表在這一領域機器超越了人類，而2014年最好的成績是6.67%，由谷歌創造，但依舊沒能實現5.1%，百度也積極嘗試，試圖第一個打破5.1%。

「何張任」組合決心跟大廠們硬剛一下。

事實證明，想要突破大廠們都還沒打破的記錄並非易事。主要是由於神經網路想提升能力就得持續加深，但一加深就不收斂，導致實驗結果很不理想。

有一天，張祥雨突然意識到收斂的問題跟梯度消失有關係，如果做一些獨立性假設的話，是可以推出一套參數初始化的法則，讓梯度消失的問題解決。因此他推導出一組公式，後來在微軟內部命名為「xiangyu初始化法」。

接著，「何張任」組合又引入一種新的修正線性單元（ReLU），將其稱為參數化修正線性單元（PReLU），並且通過對修正線性單元的非線性特徵進行直接建模，推導出一種符合理論的初始化方法，並直接從頭開始訓練網路，將其應用於深度模型的收斂過程。

這種方法應用到比賽之後結果出爐：錯誤率已降低至4. 94%，超越人類！

不過，張祥雨認為，打破記錄確實可以長點臉，但是並不足以證明AI直接超過了人類。他們發現，挑戰到了後面就完全變成了一個工程問題，成了怎麼用有限的資源訓練起來更大的網路。

「其實我個人是非常不滿意的，因為雖然打敗了人類，但更多是一個噱頭，我們也知道這些方法並不很work，主要是靠調參和堆模型。」張祥雨說。

張祥雨又重新復盤，他發現2014年的ImageNet冠軍谷歌GoogLeNet只用了一點幾個G的複雜度就實現了非常高的準確度，他認為GoogLeNet可能是其他幾個模型的必經之路。

經過幾個月的研究，張祥雨發現，GoogLeNet最本質的是它那條1x1的shortcut。「說白了，可以把它簡化到最簡單，可以發現GoogLeNet只有兩條路，一條是1×1，另一條路是一1x1和一個3x3」。

到底是什麼在很低的複雜度上支撐起了GoogLeNet這麼高的性能？

張祥雨猜想，它的性能由它的深度決定，為了讓GoogLeNet 22層的網路也能夠成功地訓練起來，它必須得有一條足夠短的直路。

基於這個思路，張祥雨開始設計一個模型，利用一個構造單元不斷的往上分，雖然模型結構的會非常複雜，但是不管怎麼複雜，它永遠有一條路，但深度可以非常深。「我認為這種結構就可以保持足夠的精度，同時也非常好訓練，我把這個網路稱為分形網。」

張祥雨把分形網的成果跟何愷明商量，何愷明的意見是：結構還是過於複雜。

「複雜的東西往往得不到本質」，何愷明一語中的，並建議進一步對這個模型進行化解，用它的一個簡化形式。

於是張祥雨又延伸之前的假設：最短的路，決定容易優化的程度；最長的路，決定模型的能力，因此能不能把最短路儘可能的短，短到層數為零？把最深的路，無限的變深？

基於這個思路，誕生了ResNet，有一條路沒有任何參數，可以認為層數是0。

「何愷明老師的研究思路對我啟發很大，從紛繁的結構中找出最work的本質屬性，這種極簡化的思想是ResNet的核心，並且使得ResNet有很強的泛化能力，任何人都可以在基礎上做各種修改，能啟發別人的研究。」張祥雨說。

ResNet提出後，「何張任」組合打比賽，張祥雨負責code部分，當年一下取得5項挑戰賽第一，「何張任」組合在導師孫劍的指導下獲2016年CVPR最佳論文獎，迄今單篇引用超20000，ResNet也成為計算機視覺領域最流行的框架之一。

從ShuffleNet到AutoML：年輕人拿起了公司戰略的斧頭

2016年7月，孫劍加盟曠視，擔任首席科學家，張祥雨也在博士畢業後追隨導師，開啟了在曠視工作的歷程。

而剛剛來到曠視，張祥雨便遇到了一個非常嚴峻的問題：產品落地較為困難，特別是在手機領域，實在沒有一個靠譜的網路可以去依賴。

就在這時，作為論文評審的張祥雨審了一篇論文，這篇論文是Keras作者Fran?ois Chollet等人寫的，張祥雨比較認可論文里所提到的Xception網路，他敏銳地意識到這個idea可以用於輕量級網路設計，「以後絕對可以用到移動端」，是未來可發展的一個方向，並且還給了這篇論文一個Oral。

雖然這篇論文後來被另外的評審給否了，但是給張祥雨帶來非常大的靈感和啟發。不久之後，張祥雨和同事周昕宇開始一起研究移動端模型，在前期的工作基礎上提出了一個高性能模型，二人不謀而合，同時想到了一個想法——Shuffle。

二人在努力合作後，以共同一作的身份中標了CVPR，並且不論是從實驗結果還是對業界的影響上，ShuffleNet都是成為移動端網路模型的傑出代表之一，2017年蘋果推出帶有3D人臉解鎖功能的iPhoneX ，安卓手機廠商隨後跟進，包括VIVO、小米還有鎚子手機的人臉解鎖技術，其實就是ShuffleNet在背後提供計算，能夠讓各種配置不一的手機都能實現毫秒級人臉解鎖。

2018年，作為ShuffleNet的升級版，ShuffleNet V2 為ECCV 2018 所收錄。而在剛剛落幕的VALSE 2019中，ShuffleNet V2 一舉斬獲拿下「VALSE 2018 年度傑出學生論文獎」。其論文技術及一套輕量高效模型方法論的提出，有遷移通用能力的同時，還兼具理論實踐意義和學術借鑒意義。

技術有時候是為了跟上業務需求，但對曠視和張祥雨而言，需要做出一些超前的底層技術，能夠讓技術預見到公司未來幾年戰略需求，同時還能拉開跟對手的差距，是最理想的情況，但這對一個年僅28歲的年輕人來說並非易事。

在關鍵時刻，導師孫劍的建議起到了非常重要的作用。當年張祥雨還是博士生時，孫劍建議他做深度學習；2017年，孫劍建議他做高性能網路，2018年，孫劍建議做AutoML。

AutoML領域的研究，之前一直是被國外如谷歌、微軟等大企業「壟斷」的狀態，谷歌已經推出Cloud AutoML產品，走得非常前面，既能讓公司業務有很好的落地路徑，也給競爭對手造成了不小壓力。

經過一年多的研究，今年4月，張祥雨作為共同一作發表了曠視的第一篇AutoML技術論文。論文提出的超網路包含所有子結構，只訓練一次，所有子結構便可以直接從超網路獲得其權重，無需從頭訓練。實驗結果表明，在精度、內存消耗、訓練時間、模型搜索的有效性及靈活性方面最優，超過了谷歌、Facebook等公司AutoML的成績。

模型自動化是當前AI技術的一個趨勢和未來浪潮，也成為曠視人工智慧框架Brain 的核心要素之一，拉通從數據到部署的演算法全要素、全流程生產，曠視研究院的Brain AutoML將成為戰略升級的重要技術支撐。可以說，張祥雨的工作直接影響著公司未來業務。

大學也刷題，三年看1800篇論文

不同於曠視研究院常被提及的各類金牌得主、高智商神童，即便自己的學生生涯始終保持著Top1的績點，張祥雨也從不認為自己是「神童」型選手。「我資質真的一般，都是拚命刷題刷的。」

那麼在高智商選手雲集的AI領域，接連在CVPR、NIPS等頂會「中獎」的人為什麼是他？28歲就能拿起斧頭為公司開闢基礎演算法新路的人，為什麼也是他？

在曠視研究院的工區，張祥雨的工位很難不被注意到，新智元看到在他桌子上高壘著兩摞紙，張祥雨說這是他最近在看的論文。

張祥雨工位上的論文

「從2016年到現在，我已經看了1800篇了，看過的都用軟體記下來」。粗略算一下，張祥雨平均每天看兩篇論文。而這只是他每天做實驗、管理團隊之餘，停歇片刻去做的事情。

今年，4月16日，北京智源人工智慧研究院發布「智源學者計劃」，公布了首批智源青年科學家候選人名單，張祥雨是九位候選人中最年輕的一位。

作為一位過來者，張祥雨也經歷了從求學到求職、從研究團隊的組員到組長的成長曆程。在新智元的專訪過程中，張祥雨也為年輕的學生或初入職場的新人提出了兩個建議：腳踏實地以夯實基礎和開拓視野以保持前瞻，他認為這兩點是AI領域從業者的必要素質，而他一直身體力行。

更多閱讀

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※揭秘人工智慧之父馬文·明斯的傳奇一生
※Science子刊封面：中科大校友、康奈爾教授用DNA造生命特徵機器人

TAG:新智元 |