NYU陳溪博士：運籌學與機器學習的融合交叉

新聞 08-11

雷鋒網 AI 科技評論按：從一個旁觀者的角度看來，陳溪的履歷無疑令人艷羨：從西安交通大學少年班一路至計算機系畢業，隨後到卡耐基梅隆大學（CMU）商學院攻讀碩士學位，一年後轉到了 CMU 的機器學習系；五年博士畢業後，陳溪跟隨人工智慧泰斗、UC 伯克利教授 Michael I. Jordan 進行博士後研究；在這之後，他從西海岸橫跨北美洲，於紐約大學任商學院助理教授。

機器學習專業出身的陳溪，美國研究生涯始於商學院的運籌學和統計學，在經歷六年的機器學習研究後，如今又重回商學院。運籌學與機器學習之間，能產生怎樣奇妙的化學反應？陳溪又是如何在這兩門學科中尋求交叉平衡與科研創新的？雷鋒網 AI 科技評論與陳溪博士進行了一次交流，了解了他在運籌學與機器學習之間的十年研究心得。

陳溪博士目前是紐約大學商學院助理教授，CMU 機器學習系博士，也曾跟隨 Michael I. Jordan 做了為期一年多的博士後研究。同時，陳溪博士拿過 Google Faculty Research Award，Adobe Data Science Research Award, Alibaba Innovation Award，在 2017 年還獲得了福布斯雜誌全美 30 under 30 最有影響力的青年科學家提名。陳溪博士的主要研究領域為：機器學習、高維統計和運籌學。

圖靈獎唯一華人得主姚期智院士曾如是強調學科交叉的重要性：「多學科交叉融合是信息技術發展的關鍵：當不同的學科、理論相互交叉結合，同時一種新技術達到成熟的時候，往往就會出現理論上的突破和技術上的創新。」

尤其在今天大數據的環境下，學科的交叉與融合愈發明顯。作為一位在運籌學與機器學習領域都有過長期涉獵和學習的老師，陳溪博士對於這一觀點具有極強的發言權。

陳溪的碩士第一年是在商學院度過的，現在看來，說是無心插柳也不為過。即使在進入機器學習系之後，陳溪博士仍然與運籌系的老師有著密切的合作；而在商學院任教後，他也能夠迅速地融入商學院的文化。此外，這一年的學習也給陳溪博士帶來了更多意想不到的收穫。「我在 CMU 運籌系的第一年學習了非常多優化方面的知識，而這些演算法後來成為了研究機器學習中非常重要的工具，用於進一步解決機器學習的問題。」

因為具備了不同學科的豐富背景，陳溪博士可以將很多機器學習中比較前沿的技術引入到商學院中，並用機器學習、大數據等新技術解決商學院的傳統問題。

機器學習發展至今，研究者所解決或攻克的問題相對比較集中，即圍繞視覺（檢測、識別、分割）、語音（識別、合成）、自然語言處理（翻譯、文本分析）等領域展開，而且有很多國內的創業公司也在研究上述問題。

但在陳溪博士看來，一些企業級服務，甚至可以說是商學院中的一些服務，如供應鏈、動態定價與推薦，在機器學習研究者中關注得還比較少。目前整個行業還缺乏同時具備這兩個領域知識的人，即有機器學習的背景，又能了解商學院的核心問題，把機器學習的方法和技術引入商學院的傳統領域中，並解決相應問題。

斯坦福前任商學院的院長 Garth Saloner 在 2016 年曾說過，「如果你是一個斯坦福 MBA 的學生，請趕快去工程學院，儘可能地學習 AI、深度學習和自動化的知識。就是現在。」在這些學生進入公司管理層後，他們需要更多地理解大數據知識和相應演算法，才能對企業決策產生正面的影響。在陳溪博士看來，五年以前，整個商學院幾乎沒有計算機科學家的存在，MBA 的學生也缺乏相關的知識與背景。但近年來，一些美國高校開始招募一些機器學習人才進入商學院，用合適的術語和技術包裝，用適於商學院學生理解的方式傳遞給他們。

在課程中，陳溪博士會融入一些機器學習的新案例，讓商學院的同學們了解更多技術層面的知識。雖然在他看來，同學們雖然對計算機知識相對陌生，也缺乏相關的訓練，但在當下背景下，意識到計算機學科重要性的學生們也擁有極強的求知慾。

在職業生涯的規劃中，陳溪博士非常感謝他在博士後期間的導師 UC 伯克利教授 Michael I. Jordan。「和 Jordan 教授做研究，能充分地感受到他真的是一位大師。」首先，Jordan 教授給予了學生極大的研究自由度。在每周的交流中，Jordan 教授極少規定學生手上要做的項目，而是通過溝通熱點及問題，啟發學生主動思考；此外，Jordan 教授對於學生的職業發展寄予高度的關注和幫助，會花大量的時間幫助每一個博士後準備自己的 job talk，並且提供了諸如團隊建設、項目基金申請等寶貴的經驗。整個團隊的氛圍也非常融洽，每個人都具有充分的合作精神。在一年多的博士後經歷中，陳溪博士不僅在眾包分配研究中取得了相關進展，也懂得了為師之道，並且身體力行地應用到自己的教學過程中。在這個過程中，陳溪博士也明確了自己未來的研究方向。

陳溪博士目前的一個研究核心是從理論和實踐兩個角度，針對基於大規模在線數據的學習與決策展開研究。

在理論層面，陳溪博士主要研究的高維數據在統計推斷與計算方面的內容，並把統計推斷和隨機優化做了有機的結合。

目前傳統統計學中的數據基本上是靜態的，而且是事先給定的，但這與實際的應用場景相去甚遠。與傳統統計學家相比不同的是，陳溪博士的研究更關心各種場景下海量高維數據的處理。「如果我們已經擁有一個用戶很多的歷史購買數據，那麼它的 profile 已經是非常高維的；此外大量的數據在實際場景下都是動態產生的。」

這一場景會面臨兩個問題。一個是，如何在這種動態大規模高維數據場景下做統計推斷；另一個是，當數據達到一定量級，在分散式場景下，如何在機器間的交互代價（communication cost）與推斷效率中進行平衡，並考慮現實計算的各種規範（constraint）。

與機器學習科學家相比不同的是，機器學習更關心高維數據的估計和預測，而從陳溪博士的研究角度來看，他更關心的是推斷（inference），即規劃結果的「uncertainty」程度。

在實踐層面，陳溪博士更多地考慮到了動態定價、動態推薦及眾包分配方面的應用問題。「比如每個用戶發起一個檢索（search），那麼數據會上傳到伺服器中，因為每天都會有無數的人在做檢索操作，那麼這便成為了一個大規模的用戶數據，如何通過這些數據更好的服務於用戶，比如進行精準的推薦。」

而杉數科技的成立，也正是機器學習與運籌學結合應用的一個產物。見證杉數科技成長的陳溪博士，從公司成立以來一直與幾位創始人保持密切聯繫，一同探討如何用機器學習服務國內更多的物流公司、電商公司。一方面，陳溪博士希望企業能將大家的知識轉化成生產力；另一方面，企業產生的數據也會促進很多新的研究問題。

從一個學者的角度出發，陳溪博士仍對學術研究抱有一顆沉靜之心。學術界有不少教授投身產業界，在更大的技術舞台上發揮才智，但整個大環境還是需要另一些老師靜下心來理解演算法的本質，才能創造出更多新的有價值的模型與方法。「比如神經網路調參，我們大家都知道，其實它需要大量的經驗，有人說它就像一門藝術，而不是一門科學。那麼如果我們能真正去理解它，可能以後我們不需要花這麼多的時間去調參，而是可以用理論指導演算法的設計，甚至對一些傳統問題提出全新的想法。」相信在未來，我們能在運籌學與機器學習的交叉融合上，更多地看到全新的成果。

更多資訊敬請關注雷鋒網 AI 科技評論。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Model X 致命車禍初步調查結果出爐，我們發現了這些未解細節
※谷歌又要被罰95億歐元？許家印訪FF洛杉磯總部

TAG:雷鋒網 |