探訪矽谷：吳恩達、李飛飛等6位大咖給AI公司撬動數據支招

新聞 10-10

中美之間在數據上面臨的不同情境，很可能會成為兩國將來在AI角逐的關鍵甚至是決定性因素。

【AI WORLD 2017世界人工智慧大會倒計時30天】大會早鳥票已經售罄，現正式進入全額票階段。還記得去年一票難求的AI WORLD 2016盛況嗎？今年，百度副總裁、AI技術平台體系總負責人王海峰、微軟全球資深副總裁，微軟亞洲互聯網工程院院長王永東等產業領袖已經確認出席大會並發表演講。谷歌、亞馬遜、BAT、訊飛、京東和華為等企業重量級嘉賓也已確認出席。

本屆大會將發布TOP10全球人工智慧華人領袖、巨星、新星企業與創新獲獎名單。在中關村管委會、北京市海淀區政府等單位的支持下，新智元將聯合中國人工智慧產業聯盟發布人工智慧產業培育行動計劃。

更多大會日程陸續揭曉中……

參加大會，請關注新智元微信公眾號或訪問活動行頁面：http://www.huodongxing.com/event/2405852054900?td=4231978320026了解更多

新智元報道

作者：胡祥傑

【新智元導讀】作為人工智慧發展的三大驅動力之一，數據的重要性毋庸置疑。在矽谷拜訪了李飛飛、弓峰敏、吳恩達等人工智慧領域的大咖，走訪OpenAI和斯坦福機器人實驗室等人工智慧研究前沿重地之後，我們更深刻地看到了「數據」的重要性：它可能是中美未來人工智慧發展水平的決定因素。針對數據的問題，各位走在AI研究前線的大人物和機構負責人也分別發表了自己的見解。李飛飛認為，對於初創公司來說，通過產品來撬動數據獲取才是最重要的。吳恩達特別指出：傳統科技公司 + 機器學習/神經網路 ≠ AI公司，有3個與數據緊密相關的特徵可以判斷一家公司是不是AI公司。

在「數據、演算法、計算力」這AI 發展的三大驅動力中，眼下最被人們關心的是哪一個？這裡的限定詞是「最」。在由人工智慧領域頂級投資機構紅杉資本中國基金和真格基金髮起的「AI 雙城記」北京-矽谷參訪活動交流中，我們發現，關於答案的大部分線索，都指向了「數據」。

走訪了今日頭條、清華姚班、科大訊飛、阿里巴巴和騰訊的人工智慧實驗室之後，「AI雙城記」一行前往矽谷，向谷歌雲機器學習與人工智慧首席科學家李飛飛教授、滴滴信息安全戰略副總裁、滴滴研究院副院長、Didi Labs負責人弓峰敏博士、加州大學伯克利分校AI實驗室負責人Pieter Abbeel教授、 Y Combinator 總裁Sam Altman、斯坦福大學機器人實驗室Oussama Khatib教授、Coursera公司聯合創始人吳恩達教授等多位業界頂級專家進行了交流學習，探訪了唯品會的「AI+時尚」，還深入加州大學伯克利分校與斯坦福大學兩大「魔法學校」，面向未來AI 人才進行了校園巡講。

紅杉資本全球執行合伙人沈南鵬和真格基金創始人徐小平也參與了「AI雙城記」矽谷段的部分活動環節。沈南鵬認為，人工智慧是信息科技高速發展的重要產物，如果企業家能夠把握好未來5-10年市場研發方向與機會，應當可以獲得前所未有的長足進步，獲得跨越式發展。

沈南鵬和徐小平都非常關心AI產業將對教育領域帶來哪些改變。徐小平認為，工業時代是把流水線上的人變成機器，而AI時代則是把機器變成人。AI的廣泛應用，如果能夠極大提高生產力、極大地解放人類，將是非常了不起的事情。

在專家的分享中，在團員們的交流討論里，「數據」二字一直被反覆提起。這些人工智慧領域領袖級的專家們，這些走在AI創業前線的企業家們，他們都有著怎樣的「數據觀」？

具體來說，巨頭在數據上的優勢會不會形成壟斷，構建起發展人工智慧的壁壘？對於創業公司來說，在數據不足的情況下，應該如何聚焦以彌補劣勢？從技術上來說，是否一定需要「大」數據才能發展AI？從更高的層面來看，不同的市場環境對於數據的產生會有多大的影響，反映在數據上的差異化結果，是否會在AI層面造成長遠影響？

為期一周的矽谷之行中，以上問題一一得到了解答。

沒有足夠的數據怎麼辦？李飛飛：通過產品來撬動數據，啟動飛輪

對於大多數並非以 AI 技術為核心業務的公司來說，智能時代他們最關心的問題是，要怎麼用好AI技術（為業務助力）？這些公司在日常經營業務中累積了大量數據，歸結起來，這是業務場景的問題。

而作為創業者，其實大多數人比較關心這樣一個問題：沒有大數據怎麼辦？專家們的一個建議是做細分領域，原因在於細分領域的數據，大公司不容易觸達。

「AI雙城記」矽谷段第一場大佬對話的重磅級嘉賓是谷歌雲機器學習與人工智慧首席科學家李飛飛教授，紅杉資本全球執行合伙人沈南鵬先生與真格基金創始人徐小平老師專程到場參加。

圖為紅杉資本全球執行合伙人沈南鵬先生與谷歌雲機器學習與人工智慧首席科學家李飛飛教授對話創業者

創業者向李飛飛教授提出這樣一個問題：大公司毫無疑問擁有巨大的數據獲取優勢，那麼創業公司還有機會嗎？

李飛飛教授的回答是，大公司在獲取跟自己產品相關數據方面的優勢肯定是無法匹及的。但是，AI應用的場景多種多樣，在許多領域還有待開掘。對於初創公司來說，通過產品來撬動數據獲取才是最重要的。

圖為真格基金創始人徐小平老師聆聽李飛飛教授答創業者問

在李飛飛教授看來，科技在不斷往前推動，毫無疑問，人工智慧是真正革命性的技術。但這一領域的存在只有60年，在大數據中，僅僅是有標註的訓練數據集就可以用來做很多工作。

在被問及看好哪些行業會最先在AI的推動下獲得長足發展時，她再次提到「數據」這一線索，李飛飛認為，有數據、有場景的地方會用得最好。

矽谷安全教父弓峰敏：給機器「喂」訓練所需的數據時，要考慮到其應用場景是什麼樣的

此次行程中，「AI 雙城記」一行也拜訪了滴滴信息安全戰略副總裁、滴滴研究院副院長、Didi Labs負責人弓峰敏博士。

圖為滴滴信息安全戰略副總裁、滴滴研究院副院長、Didi Labs負責人弓峰敏博士

據弓峰敏博士介紹，滴滴現在的發展方向不僅僅局限在共享出行，而是瞄準了整個交通系統的變革。滴滴公司每天需要處理的數據超過了4500 TB，而每天通過滴滴平台完成的出行訂單則超過2000萬次。通過道路設施上的感測器和車輛同時收集而來的數據，變成很大的數據源，這讓滴滴訓練更加智能的系統成為了可能。

他介紹說，滴滴出行在拼車規劃方面的計算量，遠遠超越了下圍棋的AlphaGo。在獲得數據以後，系統可以學到對於乘客來說在什麼地方、哪一個上車點是最方便的，所以在滴滴APP裡面，現在我們看到了「推薦上車地點」這一應用。

他同時談到了AI時代將會面臨的各種安全問題——一窺硬幣的另一面。

在他看來，機器學習本身的確增加了方法和模型的複雜度，和軟體時代一樣，複雜程度本身就是一個可能引起更多漏洞和威脅的弱點。但AI應用引發黑客攻擊的可能性已經不是什麼新鮮事物，越來複雜的機器學習，已經有對抗的味道在其中。這意味著，機器需要做更多自適應的學習，不斷更新，去應對可能出現的安全風險。

另一方面，給機器「喂」訓練所需的數據時，就要考慮到其應用場景是什麼樣的，對於噪音、干擾、信息污染的承受程度又是怎樣。如果預見性差，很可能致使學習系統被誤導，其學習結果也相對不會理想。

因此，弓峰敏博士指出，解決AI未來應用的安全性問題，也會是一個蓬勃興起的新領域。

吳恩達教你判斷一家公司是不是AI公司：看數據

矽谷行程的最後一天，人工智慧和機器學習領域國際最權威學者之一吳恩達為大家作了主題為《當AI成為新的電力，它將怎樣改變世界？》的分享。

圖為Coursera公司聯合創始人吳恩達教授

AI的崛起正在改變公司間競爭的基礎，到底什麼才是真正的AI公司？吳恩達教授首先談到了互聯網時代，關於定義「互聯網公司」的誤區——商場 + 網站 ≠ 互聯網公司。

「我認識一家大型零售公司的CIO，有一次CEO對他說：『我們在網上賣東西，亞馬遜也在網上賣東西，我們是一樣的。』但其實不是的，互聯網公司應該如何定義呢？不是看你有沒有網站，而是看做不做A/B測試、能不能快速迭代、是否由工程師和產品經理來做決策。這才是互聯網公司的精髓。」

他還說，同樣地，現在我們經常聽人說「AI公司」。在AI時代，我們同樣要知道：傳統科技公司 + 機器學習/神經網路 ≠ AI公司。

那麼，怎樣才算是一家真正的AI公司，吳恩達教授認為有3個重要的特徵，都與數據直接相關：

第一，AI公司傾向於策略性地獲取數據。

第二，AI公司通常有統一的數據倉庫。

第三，普遍的自動化以及對人工智慧產品經理的新定位（從哪兒獲取數據，如何獲取數據，對數據精準度的要求）。

數據太小怎麼辦？OpenAI 有辦法

相比科技巨頭，初創公司在數據上的劣勢是確實存在的。但是，在前沿研究領域，研究者們也在探索，如何利用小量的數據進行學習和訓練，在不依賴大量數據的前提下，最高效地發展AI技術。

OpenAI研究員、加州大學伯克利分校教授Pieter Abbeel 和 OpenAI 創始人、YC 創始人 Sam Altman 在與AI Trip團員的分享中，均提到了他們的最新研究方向——在小數據的前提下發展 AI。在OpenAI，研究員們更多地是著眼於機器的「學習」，在自訓練（self-play）中訓練智能體。

圖為Y Combinator 總裁Sam Altman

圖為加州大學伯克利分校教授、伯克利AI實驗室負責人Pieter Abbeel

Pieter Abbeel更為具體地提到了一個有效的方法——元學習（Meta Learning），給系統很多訓練數據，最後得到的是一個自學習的系統，它會隨著獲得的數據進行更新和快速的學習。這樣，少量數據也可以有好的結果，只要有相似的數據。這顛覆了傳統的深度學習模式必定需要大量數據集的情況，意味著其實深度學習也可以在少量數據的情況下，得到不錯的結果。

翻閱此前的論文，Pieter Abbeel他們的介紹是，這是一種與模型無關的元學習演算法，它與任何具有梯度下降訓練的模型兼容，適用於各種不同的學習問題，包括分類，回歸和強化學習。元學習的目標是在各種學習任務上訓練一個模型，以便可以使用少量的培訓樣本來解決新的學習任務。

在他們的方法中，模型的參數被明確地訓練，使得具有來自新任務的少量訓練數據的少量梯度步驟將在該任務上產生良好的泛化性能。實際上，他們的方法訓練模型很容易微調。已經得到證明的是，這種方法可以在兩張圖像分類基準上產生最先進的表現，在回歸中產生良好的效果，並通過神經網路策略加速策略梯度強化學習的微調。

另一個解決數據不足的辦法，斯坦福機器人實驗室：用虛擬環境的訓練解決數據問題

在斯坦福，機器人專家Oussama Khatib向大家介紹了他引以為傲的機器人Ocean One，這是一個用於深海發掘的機器人，能夠到達人類因為生理限制無法到達的海底深度。

圖為斯坦福大學機器人實驗室教授、電氣與電子工程師協會研究員、國際機器人研究基金會主席Oussama Khatib教授

Oussama的團隊設計了一種三指機械手，採取AI+觸覺反饋的協同工作方式，讓機器人手部能夠感受到所抓取物體的重量與質感，在斯坦福的實驗室里，「AI雙城記」團員們也親身感受到了這一人機協同的新方式。真正能「感受」得到機器那一端的觸感。

新智元了解到，Ocean One的研發中，很多訓練其實使用了模擬場景，就是虛擬環境。可以用虛擬產生的數據發展AI，這又是解決在沒有大數據的情況下發展人工智慧的一個妙招。

總結：中美之間在數據上面臨的不同情境，很可能會成為將來AI角逐的關鍵甚至是決定性因素

首先數據為什麼重要？這一問題提出的背景是，當下人工智慧發展其實有兩個非常明顯的現象：演算法的開源化和計算的雲端化。

演算法的開源化體現在，不僅具體的演算法模型代碼會公開，運行和訓練這些演算法的框架也是開源的，加上近年來火熱論文發布平台arXiv，以及Github和Reddit等平台，甚至社交媒體都大大地便利了演算法研究的交流，門檻大大降低。

計算的雲端化趨勢明顯，谷歌從2017年開始發力以AI計算為主要對象的雲計算領域，而此前亞馬遜、微軟等科技公司也在推動雲計算的普及。在中國，阿里雲、騰訊雲和百度雲也都在競相發展。直接接入雲計算，從而降低計算成本，越來越多地成為一種可行的、划算的選擇。

「AI 雙城記」團員，唯品會美國研發中心總經理，AI負責人謝楠提到 —— AI 技術有幾大趨勢：演算法「開源化」，計算「雲服務化」，數據「私有化」。因此，就演算法，數據，和運算能力這三大 AI 要素，企業最需要建立起壁壘的是數據。AI 商業應用與學術論文研究有所不同，演算法模型的準確率不必要是唯一的研發目標。在有限的時間與資源的情況下，也許有商業 RoI 更高的研發目標，譬如演算法對某業務場景的覆蓋範圍。在特定的應用場景，80% 的演算法模型準確率可能就可以做很多過去做不到的事情。如何在不完美準確率的情況下構建一個切實可行的商用場景是真正挑戰商業 AI 實踐者的地方，需要對業務及客戶需求有深刻得洞察與理解。

中國在未來會成為全球最大的數據產生地。數據是石油，中國在數據上的優勢，會讓中國成為智能時代的「阿拉伯」——這是「AI 雙城記」中，在矽谷優秀的研究者和創業者交流中被頻繁地提到的話題。而在這一點上，大家都達成了較為一致的共識：中國擁有發展人工智慧最理想的環境，豐富的應用場景和海量的數據。

此前彭博社對中國發展AI的優勢進行分析時，曾經採訪到羅切斯特大學研究中國的計算機科學教授羅傑波，他說，「在中國，數據一向是很容易得到的，只是現在，政府、組織以及公司終於明白了數據的價值。只要能找到可以信任的夥伴，他們就會願意共享這些數據。」

彭博社曾進一步總結，在發展AI上，中國有著三大優勢：大量的軟體工程師儲備、可供測試的7.51億（甚至更多）巨量互聯網用戶基礎，以及政府的強力支持。

在「AI 雙城記」的交流中，不少AI從業者提到，中美之間在數據上面臨的不同情境，很可能會成為兩國將來在AI角逐的關鍵甚至是決定性因素。

AI在中國發展的良好勢頭，也讓通過「AI雙城記」走出去的創業公司CEO和高管們受到了極大的關注。在美國兩所著名學府——斯坦福大學和加州大學伯克利分校分別舉行的校園巡講座無虛席，場場爆滿。

圖為真格基金創始人徐小平老師與聯合創始人王強老師在校園巡講期間同框

後記：AI時代，人類將真正第一次在最本質意義上復原成「智人」

紅杉資本中國基金一直關注人工智慧領域的發展，並在 A 輪甚至 Pre-A 輪就投資了諸多 AI 及相關領域的創業企業，包括安防領域的依圖、格靈深瞳、明略數據；金融領域的第四範式、京東金融、百融金服、凱泰明、Ping++；傳媒/信息領域的今日頭條、快手、秒拍、新智元；生活服務領域的美團點評、餓了么、達達、匯納科技；汽車/交通領域的蔚來汽車、滴滴出行、摩拜單車、Pony.AI、瓜子二手車；醫療健康領域的推想科技、Voxel Cloud、森億智能；硬體領域的大疆創新、Ninebot、地平線、出門問問；以及技術層領域的雲智慧、智慧芽、神策數據，可以說，這樣一個AI投資圖譜，已經有效呈現了當前人工智慧商業化的幾乎所有領域的關鍵場景。

從紅杉資本聯手真格基金為成員企業提供的這場橫跨北京和矽谷AI盛宴來看，他們對創業者的「幫忙」是真真切切的，從中國最頂級的人工智慧實驗室，到美國知名學府，再到大名鼎鼎的矽谷AI名人……創業者在這場旅程中接觸到了當前可以獲得的幾乎是最好的交流和學習機會，取回了「真經」。

正如真格基金聯合創始人王強在此行的一次分享中提到的他對AI的理解：「這一場AI越來越凸顯特色的智能化革命，實際上就是兩個方向。一是不斷釋放人的大腦所承載了千百年的所有功能，這是繼工業革命之後，釋放人腦潛力、釋放人力資源的又一次革命。用越來越智能化、高效率的方式，來替代人腦不應該承載的任務。」

「另一方面，當人腦的部分工作被人工智慧所解放，它必定在呼喚著新的東西。就像人作為靈長類高等動物，古生物學家給人類的祖先命名為『智人』，隨著AI的不斷演進，可能人將真正第一次在最本質意義上復原成為『智人』。」

【掃一掃或點擊閱讀原文搶購大會門票】

AI WORLD 2017 世界人工智慧大會購票二維碼：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※AI改變社交媒體的5種方式：美國最頂尖的社交媒體如何使用AI技術
※「機器人選股不看好谷歌、Facebook前景」富國銀行AI建議「拋售」兩家股票
※「迅雷創始人程浩」AI創業必知6大核心問題：如何選擇賽道、搭配團隊和應對巨頭挑戰

TAG:新智元 |