AI產業數據稱王,GAN和遷移學習能否突圍BAT壟斷?
馬云:大數據讓我們提升對世界的認識。李彥宏:真正推動社會進步的是演算法,而不是數據。
新智元原創
作者:張易
【新智元導讀】AI時代,數據為王讓巨頭越來越難以被打敗。谷歌和 CMU 的10億+數據集的設想,似乎又將這一假設往前推進了一步。數據為王還是演算法為王,這是人工智慧時代一直爭論不休的話題。近年來,對抗生成網路、遷移學習等新技術不斷湧現,讓人看到小數據突圍的曙光,這些技術會為初創公司帶來一線生機嗎?作為國內互聯網數據的井噴之地,BAT 對演算法和數據又持有哪些觀點?他們的數據布局是怎樣的?
GIF/38K
AI時代,數據為王讓巨頭越來越難以被打敗
上周,谷歌和 CMU 的一項合作研究,為擁有大數據優勢的技術巨頭們帶來了喜訊:在不調整現有演算法、只是給模型多得多的數據的情況下,圖像識別結果取得了較大提升。
這一波人工智慧的興起主要有三大因素推動——計算力、數據和演算法。而谷歌和 CMU 的這項合作研究可能會將「數據」這一項進一步高亮顯示。
據 Wired 報道,研究結果一方面印證了通過給模型餵食多得多的數據,同樣的演算法也能顯著提升性能,另一方面,這也是對擁有海量數據的技術巨頭的喜訊。無論是谷歌、Facebook 還是微軟,都會更加堅信自己手中的數據是決勝的王牌。雖然從 1 百萬擴充到 3 百萬數據集,對象檢測的結果只提高了 3 個百分點,但研究者表示,他們相信如果對軟體進行調整,使其更適應於超大數據集,那麼優勢還將擴大。退一萬步說,即使沒有擴大,這 3 個百分點也足以形成和小公司、初創公司的天塹。舉例來說,在自動駕駛中,準確率的每一點點提升都至關重要,有可能帶來數以億計的回報。
以 AI 為中心的公司,早就建立了自己的數據壁壘。谷歌、微軟等巨頭,會開源大量軟體,甚至硬體設計,但對能這些工具真正發揮效用的數據卻視若珍寶,絕不輕易開放。他們有時確實也會釋放數據:去年,谷歌放出了從 7 百萬 YouTube 視頻中提取的數據集,Salesforce 也開源了從維基百科抽取的數據集,以幫助演算法更好地處理自然語言。
然而正如 Luke de Oliveira (AI development lab Manifold 合伙人、Lawrence Berkeley National Lab 的訪問學者)所說:「這種開放對競爭來說沒什麼價值。這些數據集都是對該公司產品的未來市場地位沒什麼影響的東西。」
在不久前的百度開發者大會上,百度公布了「Apollo 資源共享時間表」。其中各種細化數據非常有吸引力。
巨頭籠罩下,小數據學習會為初創公司帶來一線生機嗎?
有人說科技公司的生態越來越講求創新和快速反應,這似乎對小公司、初創公司更為有利。但機器學習和 AI 浪潮卻徹底地凸顯了大數據的重要性,僅此一點,就讓小公司「殺死」巨頭的任務難上加難。
谷歌和 CMU 的研究者在論文中表示:「我們真誠的希望,(他們的研究)將激發視覺界不要低估數據的價值,並形成共同的努力來構建更大的數據集。」研究的參與者之一、CMU 的 Abhinav Gupta 表示,選擇之一就是和 Common Visual Data Foundation 合作。而這個 Foundation 正是由曾發布過公開圖像數據集的 Facebook 和微軟資助的非盈利組織。
在數據方面拙荊見肘的公司,如果想在這個數據比金子還貴的時代生存,只能盼著自己的演算法更聰明。初創公司 DataRobot 的 CEO JeremyAchin 猜測,隨著機器學習變得日益流行,小公司利用小數據做出的模型,比如保險業中用於風險預測的模型,在大公司用大數據打造的模型前可能會抵擋不住。
有一種研發趨勢,是在讓機器學習較少地依賴數據,比如小數據學習。這一類研究會阻擋 AI 的數據經濟嗎?Uber 去年曾收購了一家公司,就是以此為研發方向。
針對數據量匱乏的問題,有一項技術非常有價值:生成對抗網路(Generative Adversarial Networks,簡稱GAN)。
生成對抗網路依賴於兩個模型:
生成模型(Generative Model),即藉助於學習、模擬、仿照、以及數據擴增等技術自動生成數據的模型;
判別模型(discriminative model),即判別生成數據是否符合預期的模型。
生成對抗網路首先會基於生成模型來生成數據樣本,再用判別模型來鑒別這個自動生成的樣本是否符合預期。通過這樣的雙方對抗網路,實現互相博弈,共同提升。
另一種思路是遷移學習。遷移學習基於標籤數據量大的領域,做特徵、參數權重的預訓練(pre-train),再通過遷移當前領域可復用的特徵、參數、或者是領域知識、通用知識,對目標領域進行半監督、無監督學習。
Fast.ai 的聯合創始人 Rachel Thomas 認為,初創公司應該努力開拓新的疆域,在互聯網巨頭的地盤以外尋找應用機器學習的場景,比如農業。她表示:「即使是巨頭也不是無處不在,在很多特定領域,數據還沒有被任何人收集過。」即使是巨人也有盲點,這也許才是小公司的機會。
數據重要還是演算法重要——百度的答案仍是演算法
在中國國內市場,BAT 壟斷了大部分的數據。關於演算法重要還是數據重要,他們的看法如何?
李彥宏曾在重慶舉行的聯盟峰會上說過:我們百度的工程師總結出來一句話,叫『數據秒殺演算法』,但是我後來跟他們講,真正推動社會進步的是演算法,而不是數據。
在之後的數博會上,李彥宏再次表達過類似的意思:工業時代最寶貴的東西不是煤,是蒸汽機這樣的技術革命、革新,而人工智慧時代最寶貴的也不是數據,是因為數據帶來的技術的創新。
讓我們簡單看一下百度大數據的「家底」,其實用兩個短語就可以概括:萬億級搜索數據,百億級定位數據。
試以語音相關的數據為例。作為百度 ALL IN AI 的兩大發力方向之一(自動駕駛和智能語音),百度如此展示自己在相關數據上的肌肉:
網上流傳一句話,說百度是「數據為重,不為上。」 作為很可能是 BAT 三家中數據量最大的公司,百度的優勢在於數據最全面,數據樣本比較複雜,數據的廣度和多樣性上比較強。而問題在於,百度的數據,較之阿里和騰訊,其變現能力可能是最弱的。
作為一家技術驅動的公司,百度在數據挖掘技術和 AI 人才的儲備上優勢明顯,但其優勢的應用出口較少。也正是在這種背景下,李彥宏在數博會上發言:我覺得這個數據確實重要,沒有數據訓練的話人工智慧走不到今天的,但是數據是不是根本呢?數據不是根本,數據有點像新時代的能源,像燃料,那麼推動時代進步的是技術,是創新,不是這些資源......所以工業時代最寶貴的東西不是煤,是蒸汽機這樣的技術革命、革新,而人工智慧時代最寶貴的也不是數據,是因為數據帶來的技術的創新。而且過去一年就有這麼多的創新,有大幅度的提升,連我在這個領域的人都要覺得要改變心態,適應這種環境,適應各種各樣的可能性。
阿里、騰訊等多家巨頭:數據+場景才最重要
阿里的大數據是基於淘寶天貓業務而誕生的電商數據、信用數據。阿里的核心業務在電子商務上,數據比較聚集,更容易做分析。這種數據類型的優勢在於,更容易變現,挖掘出商業價值。正如馬雲在數博會上所說:「我們對世界的認識將會提升到一個新的高度,大數據會讓市場變得更加聰明。」
而騰訊的大數據是基於微信、QQ 誕生的社交數據、關係數據,以及遊戲數據,相對較雜,但場景化極高。很自然的,馬化騰在數博會上強調了場景的意義:「有了應用場景,有了市場,數據自然會產生,也會驅動技術發展。」「就好像今天BAT三家分別在社交、電商和搜索有各自的主戰場和場景;滴滴、摩拜有交通出行的場景;微信、支付寶有支付場景。」騰訊的大數據是其自身各類產品(尤其是遊戲)成功的堅實基礎。
對於場景化的數據,我們還很容易想到滴滴出行和小米,它們分別在各自的場景中收集並利用其數據優勢。
滴滴出行基於大數據的路徑規劃系統
滴滴研究院副院長葉傑平曾在北大 AI 公開課上透露:下面說一下我們的大數據......我們每天大概2000萬單,平台的每一輛在開著的車,每幾秒鐘就會給我們傳遞 GPS 信息。現在滴滴每天新增的數據量是 70TB,這個數據應該是幾個月之前的,現在應該更大了。我們平台在做很多的預測和模型,每天處理的數據是2000TB。每天的路徑規劃是 90億,這個數據量特別大。然後是定位數據,我們必須要知道乘客在哪,司機在哪,所以定位是非常重要的,這個數據不光要精確,而且要快速。定位數據每天是 130億.....」
小米科技聯合創始人黃江吉在北大 AI 公開課上也曾透露:「小米全部產品加起來,每天產生的數據量一天是300T。為了存儲這個300T,每天我們付出的存儲成本是天文數字。為什麼我們要存儲大量昂貴的數據?其實我們等 AI 這個彎道已經等了很久,終於在去年迎來爆發點。現在,我們有可能利用最前沿的技術,比如深度學習、對抗性網路來取得進一步發展。現在技術發展是以周計算。這對於我們都是好消息。因為技術發展到這個點的時候,我們已經準備了很多大數據。這些技術可以用來驗證演算法是否靠譜,可以把我們的產品變得更智能化,真正實現閉環。大數據其實講了很多年。我剛進入微軟的第二年,就開始做data warehouse,當時已經存了海量數據,都覺得大數據很有價值......我們對於數據增長很開心,並不在意成本。"
從這個角度來說,大數據對 AI 的賦能,確實是從應用場景中來,到應用場景中去的。
10億+數據集,谷歌的大數據野心
過去十年中,在計算機視覺領域,雖然計算力(GPU)和模型大小不斷增長,數據集的規模一直停步不前。
這項研究(【10億+數據集,ImageNet千倍】深度學習未來,谷歌認數據為王),用了 50 顆 K80 GPU(計算等於 8.3 GPU 年),花了整整兩個月,在 300M 標記圖像的海量數據集上進行圖像識別訓練。這個名叫「JFT-300M」的內部數據集,含有 18291 個類別,是 ImageNet 的 300 倍。這一研究項目的初衷是看在不調整現有演算法、只是給模型多得多的數據的情況下,能否取得更好的圖像識別結果。
在 JFT-300M 不同子集上的預訓練後,進行物體檢測的性能。x 軸表示對數刻度的數據集大小,y 軸是 COCO-minival 子集中 mAP@[0.5,0.95]中的檢測性能。
答案是可以。研究人員發現,隨著數據增長,模型完成計算機視覺任務的性能直線上升。即使在 300 倍 ImageNet 這麼大規模的情況下,性能都沒有遭遇平台。谷歌研究人員表示,構建超大規模的數據集應當成為未來研究的重點,他們的目標是朝 10 億+ 級別的數據進發。
※AI時代能否誕生谷歌、亞馬遜和Facebook類巨頭
※消費者買單少,語音助理公司在自作多情?
※88 美元的自動駕駛「自製原子彈」,最著名黑客詳解panda系統
※12張圖看懂Gartner《智能客服機器人行業最佳實踐》報告
※「商業模式全解析」AI時代能否誕生谷歌、亞馬遜和Facebook類巨頭
TAG:新智元 |
※3DMark即將支持光線追蹤測試,NVIDIA能否壟斷新技術優勢?
※嵌入式晶元IP之爭:ARM的商業帝國能否被新貴RISC-V撼動?
※ASCO肺癌福音:PFS成倍拉長,TKI聯合療法能否顛覆傳統?
※華為與榮耀的GPU Turbo,能否幫助EMUI超越小米的MIUI?
※能否超越Boost?Nike最新REACT科技口碑爆棚,Adidas是否還能再戰
※FAANG已過氣 MAGA能否帶領美股科技股重返輝煌?
※ASICS GEL-KAYANO 25 這次能否完勝上一代?
※GESC接近尾聲 看VGJ.T能否衝擊Minor冠軍
※LPL前瞻:SNG對戰TOP FPX迎戰WE能否終結三連敗?
※OFF-WHITE x Nike 全新系列!能否再次創造 「The Ten」 神話?
※VG對陣OMG能否終結三連敗?EDG再戰SS能否成功復仇?
※NOKIA能否捲土重來?
※Micro LED能否打敗OLED
※低調的SF MOTORS,能否破局EV「智造力」難題?
※小米MIX 2S慘敗OPPO、vivo,能否反擊全靠小米MIX 3了!
※Arm的新CPU和GPU核能否衝擊英特爾老巢?
※剛剛曝光!OFF-WHITE x Nike 全新系列!能否再次創造 「The Ten」 神話?
※「WELLBET APP」意甲-尤文圖斯VS拉齊奧,C羅能否迎來尤文首球?
※Snake vs RNG前瞻:RNG能否再下一城
※RISC-V架構能否讓國產IC真正「自主研發」?