UC Berkeley 劉暢流博士:灣區五年博士路
機器之心專欄
作者:劉暢流
來源:ControlPlusAI
本文作者劉暢流博士 2012 年本科畢業於清華大學,2017 年在加州大學伯克利分校取得控制方向博士學位,且將於 2019 年入職卡耐基梅隆大學做助理教授。不久之前,她總結了自己的5年博士生涯,希望能為準備踏上學術道路的朋友提供一些幫助。
「這是一段早就計劃寫下的故事,無奈畢業季起起落落的心情,一直擱淺。現在將這段時光記錄下來,主要為了自己回顧,其次也願給準備踏上學術道路的朋友一些借鑒。」
2012 年生日當天,我踏上了異鄉求學的路途。在此前的 1 個月,本科畢業。本科期間零文章,拿得出手的研究經歷就是參加了系裡的一個叫做拔尖創新人才的項目。在清華,科研大牛出沒的地方,是星火、思源、挑戰杯。而我跟這些字眼零交集。在大四參加優秀畢業生答辯的時候,我寫上的本科四年最得意的經歷是:拍班劇、讀經濟雙學位、去港大當交換生參加 NGO……
然而,最後我確實拿到了很好的 offer。於是,帶著忐忑,帶著憧憬,我就這樣踏上了異鄉求學之路。一開始,我其實也並沒有多麼堅定地想讀博士。因為沒有正兒八經在實驗室待過,覺得五年的時光像黑洞一樣見不到底。後來老爸說,五年快得很,英語還沒學會就畢業了。我將信將疑,接了唯一一個給了我五年獎學金的 offer,就這樣來了美國。
雖然本科期間沒有做過像樣的科研,但是我對閉環系統、博弈論、微觀行為的宏觀影響一直很感興趣,這些思考在後來我選擇研究方向的時候起到了非常重要的作用。第一次真正接觸到閉環系統理論是在港大上貨幣經濟學的時候。老師用了閉環狀態空間模型(State space model)來描述貨幣發行、貨幣價值以及宏觀經濟貨幣總量之間的關係。上這門課的時候是 2010 年,2008 年的經濟危機的陰霾剛剛散去。我們用的課本是剛剛重新修訂過,增加了很多 08 年經濟危機的案例討論。那時我常常泡在圖書館裡,津津有味地讀一個又一個案例討論,看閉環系統里錯誤如何被強化、系統里不同的決策者之間如何互相博弈、而這些博弈的結果又如何最終影響了宏觀經濟。這些閱讀和思考讓我徹底走出了當年爆火的《貨幣戰爭》的「中二」世界觀,而且深刻地影響了我後來的研究。
那時,我也開始隱隱約約地明白經濟學和工程學有很多數學模型是通用的。機床的控制與貨幣的控制一樣都是閉環決策,只是面對的控制對象不同。港大交換結束後,我很期待回清華上控制工程原理,找找工程上的閉環系統和經濟學裡的閉環系統之間的異同。可惜沒上兩節控工,課程內容就從時域轉入了頻域——然後我就迷失了。再次撿起是在伯克利重新學習控制理論的狀態空間模型後。
很多人都問我為什麼當時不去念經濟學的研究生,我其實有猶豫過。在經濟系統中,理性人的行為不可被內生設計、只能被外部誘導,這便帶來了巨大的局限性,使得經濟學的研究偏向於解釋、驗證、分析(至多也只能做一些宏觀上的制度設計去誘導行為)。但在工程領域,機器人的行為是完全被內生設計的,於是這帶來了一個極大的自由度。一方面,很多計量經濟學無法驗證的想法、無法構造的實驗,未來全都可以在一個機器人的烏托邦里實現。另一方面,我很好奇這樣一個人和智能機器人共存的社會會走向何方,錯誤是否依舊會被強化、人類是否永遠能在博弈中獲勝?欲知答案,不如親身參與。
01
2012-2013:跌入泥濘
來美國之前對未來的科研有著太多不切實際的幻想,以為明天就能有一個跟自己一樣的機器人站在眼前了。腦袋裡充斥著科幻,接觸的卻是零碎雜活,一時間巨大的落差和認知上的鴻溝讓我不知所措。
因為拿著獎學金,第一年並沒有太大的項目壓力,導師讓我參與準備一個美國科學基金(NSF)的標書,主題是通過上肢外骨骼增強人類的工作效率。一看這酷炫的主題,我欣然答應。我以為的項目重點在於識別人類意圖然後幫助人類完成意圖,但後來才發現這個項目的重點在於機構設計:如何設計一個可以適應各種人群生理特徵的機械外骨骼,如何在驅動器的設計上加入柔性,使得其更貼近人類肌肉的工作方式。
幾經溝通和磨合,我選擇了設計可調剛度的驅動器。想法很簡單,就是在驅動器的輸入輸出間加一個可變剛度的機構,比如可調整力臂的槓桿。概念很容易,但是實現這個想法難點有,設計尺寸、摩擦損耗、電線纏繞、機械結構的鏈接和支撐等等都需要考慮。我自己做了一個版本的設計。正想要得到一些反饋以完善設計的時候,但是在沒有任何校核的情況下,大家竟然鼓勵我讓我把它加工出來。好吧,既然大家都這麼說,我就哐哐哐上馬開始加工驅動器了。在車間泡了好幾個星期,終於做出了成品。不過,毫不意外,因為連接結構設計得不好,這個裝置最終根本就動不了。
這個失敗的項目讓我開始反思科研的模式。一直以來,我以為的做研究就是老闆(或高年級師兄師姐)布置一個任務,我儘力去完成。然而後來才發現,其實大家都是在探索未知,沒有誰能保證路線的正確性,尤其是在一個陌生的領域,所能獲得的指導和幫助極其有限的情況下,更需要變被動為主動,有自己的判斷和觀點。如果當時相信自己的判斷,先完善設計再加工,那麼就不會浪費那麼多時間做一個廢品。
讀博的這第一年雖然走了彎路,但是卻讓我以最快的速度觸碰到了「真實」,懂得了如何腳踏實地地推動研究、如何與他人合作、如何處理與導師之間的關係,最重要的是,懂得了什麼是自己不想要的。我想,如果我被動接受了一個還不錯的項目,可能也會按部就班地做下來,但是恐怕難以心安。這一段彎路,好像讓我從雲端重重地跌到了泥里,非此難得警醒,非此不知反思。
不過這一年也並不都是失意。科研以外,我上了很多課,其中人工智慧導論(CS188)對我影響最深。我驚訝地意識到:課上不斷強調的智能體(Agent)行為,不正合了經濟學裡的理性人假設嗎?!智能體和智能體、智能體和環境的交互,不正和微觀經濟學互相對照嗎?!打通了這些認識以後,雖然並未有任何實際性的改變,但是卻讓我的學習熱情高漲。學期結束後的某一天,任課老師專門給我發了一封郵件祝賀我拿下 300 人里的最高分。
此外,我還意識到,人工智慧課上的很多知識其實和控制理論也幾乎可以一一對照,馬爾科夫過程對應狀態空間模型,馬爾科夫決策過程對應最優控制,強化學習對應自適應控制等等。然而當時的我隱約感受到前者代表「時尚」,後者則被迫成為「經典」。在學術界成為波瀾不驚的經典可不是一件好事,浪潮洶湧的時尚才是大家追逐的對象。然而可笑而無奈的事情卻是,有時時尚和經典之間不過換湯不換藥,名字一改、另起爐灶,又是一條好漢。
雖然同樣的概念在不同領域以不一樣的名字出現,但許多根本性的理論問題並不因名字的不同而消失,比如強化學習以及自適應控制里迭代的收斂性。為了搞明白這些問題,我找了一些論文來看,然而並看不懂。這時我意識到自己的數學知識儲備不足。於是我決定輔修數學。
02
2013-2014:初見曙光
雖然我第一年做設計的嘗試失敗了,但這個上肢外骨骼項目最終還是成功地得到了 NSF 的資助。按照原計劃,這個項目會成為我的博士課題,一直做到我畢業。這時,我開始重新評估這個項目對我的吸引力。我發現這既不是我的特長,更不是我的興趣所在。當時的我隱約有一些研究上的想法。雖然還無法描述清楚,但一定不是做自己都沒底氣的設計,泡在車間里加工零件。
怎麼跟導師說明自己的想法呢?還要不要在這個實驗室待下去呢?我找了很多實驗室的師兄師姐請教,包括帶我做項目的博士後。現在想來最可笑的事情是,當時尚描述不清自己的想法,於是我跟博士後師兄說我覺得上肢外骨骼這件事情缺乏「美感」,不如推公式寫證明「漂亮」。博士後師兄竟然沒有反駁,而是悠悠地建議我好好想想怎麼跟導師說。
於是開學後的某一天,我帶著忐忑的心情敲開了導師辦公室的門。導師笑眯眯地看著我,我鼓足勇氣說:我不想做外骨骼了,我有更想做的研究。導師笑容散去,略帶嚴肅地看著我說:你不必覺得被捆綁到外骨骼的項目上了,我有很多學生,再找一個來做這個項目並不難。但關鍵是你想做什麼?聽聞此言,我懸著心放下了一大半,說:我想研究機器人和人怎麼交互,怎樣互相合作,機器人和人怎麼構成一個完美的社會,我覺得這樣的研究很酷。導師又笑了,說:我們不是因為酷而做研究,我們要解決實際問題。你想研究人機交互,這很好,但是你需要把它和實際問題結合起來。比如一個好的切入點就是:怎樣保障人機交互的安全性。台灣的工研院正和我們實驗室開展相關研究,你可以從這個角度想一想如何開展你的課題。我說:好啊,那我回去研究研究。
我沒有想到導師如此開明,本來想轉組的想法也打消了。把上一年製造出的破銅爛鐵統統鎖進柜子里,我開始摸索新的研究方向。
2013 年是值得銘記的一年,那年秋天,工業機器人第一次走出鐵籠,開始和人類工人一起出現在汽車的總裝線上。一個名叫 UR5 的機器人成了產業明星。工業 4.0 被提出,柔性生產、人機協作都是未來的發展方向。與此同時,從事自動駕駛研究多年的谷歌推出了第一款無方向盤無油門的自動駕駛車型 Firefly,無人駕駛從前沿研究走進大眾視野。這些場景都給人機交互提供了絕佳的註腳。工業機器人需要與人類工人協作,無人駕駛汽車需要與人類道路參與者交互。此外,「解放」機器人的呼聲越來越高,他們被允許與人類共享空間,擁有自主決策。在好萊塢,「機器人攝影師」被用來自動近距離跟拍動員演員。在醫院,用於康復治療的外骨骼機器人會主動矯正患者的姿態。當這些機器人被解放,他們的安全性也就需要重新評估和定義。
傳統的機器人安全措施就是減速加急停,但這已完全不能運用在新的場景中。在人機交互的情境下,機器人需要正確讀懂人類的意圖,並基於此作出反應。問題是:安全問題的本質到底是什麼?我聯想到微觀經濟學裡的產權理論。如果把人和機器人共存的空間當做稀缺的「資產」,產權便指向單個個體(人或機器人)可以自由移動的那一部分空間。產權具有排他性,任何兩個個體不可能同時出現在同一個空間里。在從前的工場,人和機器人之間的產權是由鐵籠子界定的,機器人在籠內,人在籠外,非常明晰。而人和機器人協作的場景中,產權便成了一個時變的概念,不同時刻有不同的界定。那麼安全問題的產生其實是因為雙方對產權產生了分歧。
那麼如何讓雙方達成共識呢?我想到的解決方案是對於所有可能的產權分配方案建模,不斷預測人心中的分配方案是哪一個,然後把機器人的行為限制在該方案下。這個想法雖然在描述上顯得很「玄」,但它在數學上有一個非常簡潔漂亮的表達。我們只需要在系統的狀態空間(包含了人的狀態和機器人的狀態的疊加)定義一個安全的產權分配集合,然後設計一套控制方案使得系統的狀態不會離開該集合即可。最簡單的機器人控制方案就是:一旦預測系統狀態即將到達集合的邊緣,我們就通過控制機器人的狀態把它「往回拉」。數學上,這涉及到 Lyapunov 函數,李導數(Lie derivative),滑膜控制(sliding mode control),欠驅動系統,自適應控制等等概念,不再贅述。我們把這套演算法叫做安全集演算法。
就這樣,我寫出了早期兩篇關於人機交互和人機協作的文章,其中一篇還有幸入圍了最佳學生論文的甄選。
這是一個令人激動的時代,由於技術的不斷積累和硬體成本的不斷降低,許多存在於科幻作品中的場景正在變成現實,熱潮雖然還未來臨,但是變革已在廣泛地發生。2013 年秋天,第一屆斯坦福伯克利機器人論壇在伯克利開幕,這是一場學術界和工業界的聯誼,宣告著彼此共同推動機器人發展的信心。兩年後,論壇改名為灣區機器人論壇。我很幸運,我的興趣正契合了時代的發展(也許亦是受了時代影響)。這是一場新的遊戲,未來很廣闊,參與者尚不多。在遊戲規則尚不明朗的情況下,有很多空間施展拳腳。
03
2014-2015:第一個 NSF
來伯克利的時候以為可以拿五年獎學金,可是後來才發現只有前兩年是沒有任何義務的獎學金,後三年只是保證了我會得到資助,但需要做助教或助研作為交換。然而,兩年過去了,並沒有任何相關項目能提供給我助研的機會,而我也不願意為了生活費把時間浪費在不相干的項目上。導師其實非常支持我的研究,曾多次向工業界「推銷」我的工作。然而由於種種原因,第二年結束時並沒有哪家公司願意資助我的研究。這時,導師說:不如我們試試 NSF 吧,政府更願意資助前沿基礎研究。
雖然此前已經參與過一次 NSF 標書的準備工作,但當時只不過是打雜,這一回卻要獨立寫一份完整的標書。當時支撐我寫下去的動力,除了資金壓力,還有就是希望提早體驗一下教授的工作。此前兩個暑假,我都在一家硬碟公司實習,大公司的面面俱到井井有條讓人驚嘆,也讓人窒息。也許學術界更適合我?那麼寫 NSF 標書也算提早體驗一下學術界的日常了。
借著寫標書的機會,我閱讀了大量文獻,發現了很多有意思的研究。但是著手「寫」標書卻不那麼容易,花了將近半年時間,幾經修改,終於寫出了一份完整的標書。期間意外解鎖了我的畫圖技能,在英文蹩腳的情況下,能畫圖說明的地方我都插入了圖片。那段時間畫了大量的插圖,在我後來的文章和演講中被反覆使用。
在不斷地斟酌與修改中,我對人機交互也有了更深的思考。此前「漂亮」的基於安全集的演算法其實有著更深層次的數學邏輯。本質上這是一個帶約束的最優控制問題,根據最優性原則,該最優控制問題的解可以被拆解成與約束無關和有關的兩部分。我們設計的控制演算法其實就是在原本無約束的解上加入了與約束有關的那部分解。
另外,人機交互的問題也不僅僅限制於安全問題,更重要的是在保證安全的情況下最大化效率。基於最優控制問題的解的可分解性,我們完全可以設計一種並行的控制器,一個控制器用來保證效率(與約束無關),一個控制器用來保證安全(與約束有關)。當然在後來的實踐中,我們發現另外有一種拆分更有效。
雖然寫作過程並不總是愉快地,但我卻很享受這種「雕琢」思想的感覺。初中美術課上老師講過一個故事:有人問米開朗基羅,怎樣才能像他一樣創造出美妙的雕塑作品?米開朗基羅說,並不是我創造了它,它就在那裡,我只是把它外面的雜質去掉了。多年之後,這個故事突然在心頭浮現,交織著當下的種種感觸,變得妙不可言。
在我們提交了第一個 NSF 的同時,終於有一家汽車公司向我們伸出了橄欖枝。於是我開始把我的理論應用在自動駕駛上,做出了不少成果。
雖然後來這個 NSF 並未中標,但在第三年快結束時,一家大公司 A 突然聯繫我,說是讀了我此前發表的關於人機交互的文章,非常感興趣,希望能把我的方法用到實際中。我非常開心地告訴了導師,導師也很激動。很快地與公司代表見了面,公司方面非常快地推進了一切事宜。不過為了穩妥起見,導師把這件事情告訴了實驗室的機器人贊助商——日本公司 B。出乎所有人的預料,B 公司認為 A 公司是競爭對手,強烈反對我們的合作,並要求人機協作成為 B 公司的項目。頭一次接觸這樣的事情,我只剩下大寫的懵。後來導師回絕了 A 公司,我加入了 B 公司的項目。導師把他寫給 A 公司的郵件轉給了我,說:你以後可能會遇到很多類似的事情,要學會得體地處理。
04
2015-2016:工業界合作
開始與自動駕駛及機器人公司合作後,漸漸接觸了很多實際問題。我慢慢意識到,用新穎的辦法去建模人機交互固然重要,可是最終還是要落腳在對機器人的行動的計算上。而算力是一個很大的限制,通常並不會為了一個簡單的小機器人配備高性能的計算設備。因此,開發有效的底層演算法就變得尤為重要。這個時候我已經開始理解,此前的安全集演算法的高效性在於,對一個短期的規劃問題做了凸化。那麼為什麼不能沿著這個思路對長期的規劃問題做凸化呢?凸化的想法很簡單,演算法實現也不難,可是這樣的凸化一定能幫助我們找到正確的解嗎?要回答這個問題,就得研究存在性、收斂性——這不正是數學課上學的嘛!一肚子的定理終於有了用武之處。經過一段時間的推敲,我完成了我的第一篇應用數學期刊文章。雖然投稿到最終發表用了兩年時間,但這個過程讓我看到了把抽象數學思想運用到工程問題中的有效路徑。
暑假的時候我去了一家中資自動駕駛公司的美國部門實習,成功地把類似的凸化的想法實現在了他們的路徑規劃器上。後來我又去了日本,把演算法應用在了贊助商 B 公司的機械臂上,成功地讓機械臂能夠實時地在動態複雜環境中完成各項任務。
這一年的工業界合作對我產生了許多影響。首先是矯正了我的工作習慣。暑假去日本實習,驚訝於日本公司員工的生活:打鈴起床,打鈴吃飯,打鈴上班,打鈴加班,當然打鈴也不下班……這莫不是把軍訓過成了日常?然而因為生活得規律和純粹,一段時間後,我不但身體素質提升了,而且還在短時間做完了好多因拖延症而不斷耽誤的事情。回學校後,這樣有規律的工作模式就也保留了下來。
與工業界的接觸也讓我開始思考研究模式。做研究這個過程,也是一個閉環系統,需要找到一條可持續發展的道路。在學術界的閉環是源源不斷地寫文章,然後申請源源不斷的經費。如果要可持續發展,必須要讓自己的研究對社會、對民生、乃至國民經濟產生正向的影響。在這個閉環中,更需要考慮的是需求——真正的實際問題在哪裡,而不是自娛自樂做一些缺乏現實意義的象牙塔研究。就好像,武俠小說里,習武的目的從來不只是武功招式本身,而是為著大義。但在這個過程中,也要避免短視,規避功利主義。一些實際問題通常都能找到看似有用的簡單粗暴的解法,但細究下來,暴力解常常在實際運行中漏洞百出。就好像,為著虛名而練的花拳繡腿終究走不遠。如何避免對實際問題的無視或短視,如何平衡基礎研究和應用研究,是研究人員必修的課題。
因為在中資公司的實習,這一年我開始把目光聚焦在大洋彼岸的祖國。在美國的這幾年,中國發生了巨變,國民經濟快速發展,國際地位顯著提升,中產階級崛起,民族自信心暴漲。這已不是我離開前的中國。兩耳不聞窗外事的我雖然對這變化卻知之甚少,但也通過偶爾的幾次回國旅行、微信上與朋友的閑聊、以及新留學生的狀態感受到了不同。移動互聯網的洶湧浪潮中,大量資本開始進入新興高科技領域。自動駕駛、智能機器人領域,或更寬泛的人工智慧領域,不乏來自中國的頂級玩家。網上流傳著一張中關村小攤位的照片,攤位前的牌子上寫著:深度神經網路,10 元一層。這樣的變化讓我欣喜,同時也為自己錯過了這樣的發展而感到遺憾。後來我找了很多資料,試圖理解變化背後的邏輯。當然,從此以後我便再也沒有將目光移開。
這一年,我拿到了數學碩士學位,一個本不在計劃之中的學位。暈暈乎乎地上了許多數學課,一直覺得自己沒有明白,沒有吃透。後來才意識到,這些數學思想已經深刻地改變了我的思維方式,讓我能夠看到問題更抽象、更本質的那一面。如果說本科學的經濟學讓我在思考工程問題的時候有了絕妙的類比,那麼現在學的數學則是讓我走到了知識的高地,俯瞰之間,發現了很多不曾設想的新奇事物。同時,堅實的理論基礎,和對實際問題的洞悉,更是助我拓寬了研究的廣度和深度。
05
2016-2017:找工作找自己
在日本的時候,看到了不少名校教職的職位空缺,於是開始躍躍欲試。可是回到學校已經 10 月,匆匆忙忙地整理完材料,就趕著學期末的截止日期投了出去。整個教職申請流程,與五年前的研究生申請流程非常類似。但我對自己並不十分有信心,因為不止一次被說過期刊文章太少,影響力太低。不過,五年前同樣沒有人看好我的博士申請,五年後的今天,好運也許會再次降臨吧?
17 年開學第一天,我收到了一個 TOP5 學校的面試邀請。好運這就要來了嗎?然而整個過程高開低走。我後來陸續收到了不少面試邀請。到了不少學校演講,給形形色色的人們講我的研究我的願景。可是一直到學期結束,都沒有等來那看上去註定會來的 offer。
不過,失落的心情已經在等待中消耗殆盡。我迷失於對未來的選擇中。擺在我面前的路徑有很多,做博士後繼續找教職、工作、創業、回國、或者乾脆休假一段時間。與以往的選擇不同,這一次,我能看到每一個選擇可能的未來和背後的代價,這樣的選擇其實只關乎我想要怎樣的未來。
有著「畢業即失業」壓力的時候,非常希望靠鎖定一份工作,把自己放進一個保險箱。而今,畢業(失業)已成定局,則是一個開始考慮自己的「宏大命題」的契機。我放棄了把自己放進保險箱的想法。也許,擁抱不確定,才是人生的精彩所在。從前害怕在漫長的歲月中流離,但在畢業的那一刻我卻領悟到,歲月只是看上去漫長,一生也許只夠完成一件事。從前以年月日為刻度的盤算,現在都要放到「一生」來考量。這些在讀書期間都未曾被認真思考的現實,在畢業來臨時被赤裸裸地擺在了面前。讀書期間是被「制度化」了的,一切的發展都有前人留下的車轍軌跡,而一旦脫離這個制度,生命虛空卻也廣闊。
不過這一年不只有失落。申請教職的同時,我們修改了上一個沒有中的 NSF 標書,再次提交了一個 NSF 標書。這一回成功中標。所以我又多了一項留在實驗室做博士後的選擇。但我最終選擇了走出舒適區,換了一個地方做博士後。
從實驗室離開的時候,我在抽屜里翻到了博士第一年加工的驅動器,第二年投的文章的所有修改版本,第三年的那一份 NSF 標書,第四年的各種會議的幻燈片。一點一滴,凝聚成青春里的這五年。五年過去了,我的英語還是有些蹩腳。但五年的時光,已經讓我變得更篤定,更無畏,更專註。未來正來,翹首以待。
本文為機器之心轉載,轉載請聯繫原公眾號獲得授權。
------------------------------------------------
※性能超越A3C、DDQN等模型,這篇RL演算法論文在Reddit上火了
※六種GAN評估指標的綜合評估實驗,邁向定量評估GAN的重要一步
TAG:機器之心 |