谷歌證明數據為王,初創公司們被潑上了一盆冰水
導語:在人工智慧時代,海量數據的價值被進一步放大,手握大數據的大公司就具有了更大的競爭優勢
本文作者:楊曉凡
雷鋒網 AI 科技評論按:上周我們報道了谷歌的一項研究 「數據為王」是真的嗎?谷歌輕撫著100倍的數據量點了點頭 - 雷鋒網,它直觀地體現了更多訓練數據可以帶來更好的結果,但連線(WIRED)的這篇文章就表示了對這一結果的擔憂。雷鋒網 AI 科技評論對原文編譯如下。
上一周,谷歌又發布了一項破紀錄的AI研究,不過這次的研究結果是對目前 AI 商業化熱潮的一盆冷水。傳統上大家都認為科技企業的生態系統是靠小公司顛覆大公司、大公司隨之瓦解,從而保持創新和非壟斷的,消費者和整個科技經濟都逐漸變得越來越依賴這種模式。可是當科技競爭的武器成為機器學習,而機器學習又需要用海量數據訓練的時候,想要正面打敗一個科技巨頭就會變得前所未有地難。
這項谷歌與CMU(卡耐基梅隆大學)合作進行的圖像識別研究開支非常高,它佔用了50個高性能 GPU整整2個月的時間,而且用到的帶標籤圖像數量也達到了史無前例的3億張(這個領域多數的研究用到的標準資料庫大小僅僅是1百萬張圖像而已)。這項研究的目的是測試有沒有辦法繼續提升圖像識別的正確率,尤其不是靠優化現有演算法,而僅僅靠十倍的、上百倍的數據。
實驗結果是肯定的。在谷歌和CMU的研究人員用嘆為觀止的3億張圖片的新資料庫訓練了一個標準的圖像識別系統以後,他們表示這個系統在多項圖像理解測試中的表現都創下了新高。比如識別照片中的物體,演算法的識別準確率和訓練所用的數據量之間有明顯的正相關。AI研究界的上空曾經盤踞著這個問題,「僅僅靠更多的訓練數據能否從現有演算法壓榨出更多的潛能」,這次谷歌和CMU的研究結果就可以算是給出了明確的答案。
這種對於已經很多的數據還能得到「更多數據=更好表現」的結果提醒了大家,谷歌、Facebook、微軟這樣的擁有大量數據的科技巨頭佔據的優勢可能要比之前普遍認為的還要大。目前看起來谷歌的3億張圖片的資料庫帶來的提升並不算大,訓練數據從一百萬增加到3億也僅僅提升了3%的物體識別正確率,但是論文作者們表示,他們覺得可以把軟體部分調整得更適合超大量的數據,從而進一步擴大數據量帶來的優勢。即便最後的結果沒有那麼理想,科技界中微小的優勢也可能會帶來顯著的影響,比如自動駕駛汽車的視覺系統識別準確率繼續提升一點點都舉足輕重,產品的每一點點效率提升也都可以帶來十幾億的營收增長。
對於把 AI 作為發展核心的公司們來說,囤積數據作為一種防禦策略已經得到了充分的討論和執行。谷歌、微軟等等公司已經開源了許多軟體甚至硬體設計,給更多人提供了豐富的工具,但是對餵給這些工具的數據卻是越發守口如瓶。科技公司確實會發布一些數據,谷歌去年發布了一個來自7百萬個YouTube視頻的大型數據集,Salesforce也發布了一個來自Wikipedia的數據集用於讓機器學習模型學習人類語言。但是 AI 開發實驗室 Manifold 的合伙人、勞倫斯伯克利國家級實驗室的訪問學者 Luke de Oliveira說,(正如我們所想的那樣)這些公開的數據對潛在的競爭者來說往往沒有多少價值。「那些會影響自家產品保持市場地位的關鍵數據,他們是永遠也不會公開的」,他說。
谷歌和CMU的研究者確實表示他們希望這項對於海量數據價值的研究可以催生出跟谷歌的數據規模類似的超大規模開源圖像數據集。「我們由衷地希望這項研究可以激勵視覺研究社區重視數據的重要性,並且集合多方力量建立更大的數據集」,他們寫道。CMU的 Abhinav Gupta也參與了這項研究,他說有一種方法是與通用視覺數據基金會(Common Visual Data Foundation)合作;這是一家由Facebook和微軟發起的非營利機構,它就已經發布過一些開源圖片數據集。
與此同時,手中數據少的公司如果想在數據的「富人」能靠數據變得更聰明的世界中生存下來,得自己變得有創意一點。初創公司DataRobot的CEO Jeremy Achin就猜測小公司們之間可能會共享數據來讓他們的風險預測能力可以與體量大的競爭對手匹敵。這種做法以前在保險業中見過,未來可能變得越來越普遍,因為機器學習已經在越來越多的各界企業中展現了它的重要性。
未來機器學習的發展如果能夠降低對數據量的需求,是有可能顛覆當下 AI 的「數據」生態的,Uber去年就收購了一家做這方面研究的公司。不過即便現在也可以嘗試迴避局內 AI 玩家的常見數據優勢。一家研究如何提高機器學習易用性的公司 Fast.ai 的聯合創始人 Rachel Thomas 說,初創公司可以另闢戰場,在互聯網巨頭的視野之外尋找機器學習的應用場景從中獲利,比如農業方面。「我覺得這些大公司不見得在每個地方都有很大的優勢,其實許多特定領域內的數據根本就沒人收集」,她說。在她看來即便是人工智慧的巨頭也會有盲點。
雷鋒網原創文章,轉載請至雷鋒網官網申請授權。歡迎熱情討論,轉發分享~
?
※Paypal聯手三星Pay欲叫板Apple
※3D金屬列印公司Desktop Metal獲融資1.15億美元,市值飆升至10億
※現代提前發布半自動駕駛系統,趕得上先跑的奧迪A8嗎?
※麥肯錫最新調研:未來三年,AI將在哪些領域爆發?
TAG:雷鋒網 |
※剛上市的時候罵聲一片,網友:終於用時間證明,這是一台垃圾車
※她曾紅極一時,因父母背叛跌入谷底,如今《歌手》舞台證明實力
※劉伯溫為證明自己更聰明,挖了諸葛亮的墓,碑上兩行字嚇得立馬回府
※火星上不結冰的水:證明曾有生命存在
※《如懿傳》中唯一不愛皇上的人竟是金玉妍,一句話證明恨透了皇上
※一張動圖,證明陳曉和趙麗穎原來真的在一起過,算是石錘
※被姜文一眼相中,獲陳道明一手提拔,如今她用實力證明自己不是花瓶
※好萊塢大片《巨齒鯊》好評如潮,李冰冰再一次的證明了自己!
※鍛煉後范冰冰臉通紅的樣子,證明了一白遮三丑真心不假!
※朱正廷玩遊戲贏了謝娜,可謝娜接下來的舉動,卻證明了一件事
※劉伯溫為證明自己更聰明,挖了諸葛亮墓,碑上兩句話讓他自覺滾蛋
※全國最小的山火了!一腳就能踏平,證明它是山的理由笑翻了,網友調侃深藏不露啊!
※賈母講的這齣戲,足可證明《紅樓夢》的作者確為曹雪芹
※旭旭寶寶遭遇黑公關就是這本書害的,粉絲翻開最後一頁證明寶哥清白
※迪麗熱巴是公主抱專業戶,這四張圖片可以證明,最後一張亮了!
※法國隊兩星球衣新鮮出爐!證明自己是真愛粉的時候到了,一上市就售罄~
※王哲林終於迎來證明機會,能否打動灰熊,成敗在此一舉!
※球迷心懸了起來!朱婷贏球卻罕見失落,中荷一戰證明她真的累了
※劉伯溫為證明自己更聰明,竟挖了諸葛亮墓,碑上兩句話讓他自覺滾蛋
※胡一天被曝酒店夜會女生,愛豆粉絲曬證據證明非胡一天本人