當前位置:
首頁 > 最新 > 推斷時代的數據流動性:概率計算帶來了太多的希望,但這一切可能被數據的零和博弈所抑制

推斷時代的數據流動性:概率計算帶來了太多的希望,但這一切可能被數據的零和博弈所抑制

編者註:這篇文章最初發布在Roger Chen的博客上,經許可在這裡重新出版。

在計算的進化史上,現在一個特殊的時刻。大數據、機器學習和人工智慧等常用術語已經成為信息處理中一個底層範式轉變的流行描述符。雖然傳統的基於規則的計算並沒有消失,但一個新的計算範式正圍繞著概率推斷出現。在這裡,數字化的推斷是從樣本數據中學習而不是用布爾邏輯硬編碼實現。這一轉變意義重大,以至於一個新的計算技術棧正在圍繞它形成。其中的重點是數據工程、演算法開發,甚至是針對數據中心和邊緣設備上的並行計算工作負載所優化的新穎的硬體設計。

關於概率推斷的一個有趣的事情是,當模型運行良好時,它們在大多數情況下可能是正確的,但總會在某些時候出錯。從數學的角度來看,這是因為這些模型採用數值方法來逼近問題,而不是分析問題。也就是說,它們從具有一定統計意義的數據(人類參與的各種層次)中學習模式,但對與這些模式相關的任何物理層面的意義(不管是數學定理、推測還是其他)都不太了解。不過,這也正是概率推斷如此強大的原因。許多現實世界的系統都是多變數的、複雜的、甚至是隨機的。分析性數學模型並不存在,而且很難被開發出來。與此同時,分析性模型的相對物——那些物理知識無知的、依賴於浮點運算的以及經常只是暴力的機器學習模型——卻可以發展出演繹的能力。這些能力並不會很好地遵循任何已知的規則,但幾乎總是能得到正確的答案。

這是令人興奮的,因為它意味著即使沒有完全理解底層的物理知識,我們也可以在軟體強大的功能中複製諸如感知、計劃和決策這樣的(人類的能力)。事實上,研究學習模型的輸入和輸出甚至可以幫助我們開發一些在生物、化學、環境科學等複雜系統中缺失的物理模型。當看到這些能力的時候,難怪學術界和實業家都在爭先恐後地應用人工智慧。然而,這個即將到來的推斷時代帶來了令人興奮的希望,卻也有著無可爭辯的致命弱點。在這個計算範式中,運行軟體應用程序需要的數據和它需要的內存和微處理器一樣多。數據作為一個計算組件,成為和組成實際計算機的物理部件一樣的核心部件。突然間,供應和價值鏈的概念不僅適用於實物商品,也適用於數據等數字資產。不幸的是,圍繞數據的經濟生態系統在很大程度上仍然不發達,沒有被無縫地包裝和運輸。數據產品常常停留在原始和停滯的狀態。

圖1. 口味是一個特別有趣的推斷問題。在高層次上,對於一個人喜歡或不喜歡什麼菜進行規則編程是很簡單的。但是怎麼去判斷由不同菜譜做出來的同一道菜一個人是否喜歡?然後再算上這個人喜歡的所有菜?是有可能把食物分解成分子數據,從而理解什麼成分是最美味的,但很難想像一種大而全的理論能把所有的口味提煉成純粹的公式。這種情況就是統計學、深度神經網路和推斷模式能夠發光的地方,(因為)它提供了足夠的數據來訓練一個特定的人的美食偏好

數據的所屬域

儘管通過互聯網可以比以往更自由、更大規模地分發信息,但共享數據對於訓練和運行機器學習模型的價值卻與大多數互聯網商業模式的發展背道而馳。可以理解的是,這本身並沒有錯。如果一家公司通過投資建立有價值的數據集可以幫助其產品或服務與眾不同,那麼它不想去分享數據的動機就是讓數據不被競爭對手獲取。但是與此同時,數據的網路效應則是一種特彆強大的業務和技術策略。當我們從一個更廣的視角,而不是把目光聚焦在單個公司的視角和它的特定利益時,就會開始看到打破數據孤島讓數據為公眾所用能帶來的幾個行業層面的好處。下面列出了一些。

提升效率

許多冗餘數據集不必要地被創建出來,或是因為並不事先知道它們的存在,或是因為無法訪問。降低數據冗餘所帶來的成本和時間的節省都是巨大的。

可重現

有時,故意重複進行數據收集是有好處的,因為通過重現可以保證數據的質量。然而,即使在這種情況下,數據的透明性和共享也很必要,因為需要對獨立收集的數據集進行比較。

乘法效應

對於像識別貓這樣的狹窄應用,數據的價值會很快飽和。但是對於像基因學或紐約市周邊行車信息這樣的大型信息空間來說,數據的價值將在相當長一段時間內隨著數據相互間的化合而持續存在。由於開源演算法的文化已經廣泛應用,數據聯盟會隨著開放模型與開放數據的相結合而產生乘法效應。

釋放新發現

許多計算問題的成功地解決不僅是要數據,還需要能達到臨界量的數據。一般通過數據聚合或眾包就能很快地獲得這些數據。不同層次的臨界量可以釋放出不同層次的新發現,我們甚至事先不知道這些層次是什麼。

來自小玩家的巨大創新

規模經濟能夠更有效地幫助大型組織收集數據,而較小的玩家經常處於邊緣,發現他們的創新想法匱乏數據。為了幫助縮小數據不平等的差距,需要給小公司更多的新工具,這樣他們的創新就有更好的機會進入市場。

這裡主要關心的不是所有數據都應該完全參與聯盟。專有數據總是會有,因為信息不對稱提供了強大的戰略優勢。事實上,壟斷數據的所有權有時也會促進創新,因為它賦予了創新者足夠的安全感去投資那些需要長時間才能實現的項目。另一方面,過量的數據存在於不同的所屬域中,當它們能被彙集並可訪問時,就可以創建一個數據共同體,幫助信息密集型行業中的每個人加速進步。這些數據集自己通常不會為所有者帶來什麼價值,但把它們聚合起來就能產生更大的價值,為每個人提供幫助。形成數據共同體是必要的,但是還不夠,企業需要更多的數據和工作才能使其產品具有競爭力。因此,試圖壟斷數據共同體的等級競爭似乎相當於一場零和遊戲,而這樣做的資源可能會被更好地用於其他地方。相反,隨著機器學習在各個行業中擴散,共享某些類型的數據可以為每個人的進步打下堅實的基礎。隨著數據變得比以往任何時候都更重要,因此必須創建跨組織(由企業、大學甚至是民族國家所定義的)邊界的數據流動。

圖2. 囤積通用數據的競爭可能導致投資的浪費,以及造成所有行業競爭者處於不穩定的基礎上。相反地,建立某種程度的數據共享可以為整個行業創造一個強有力的立足點,它帶來了採用機器學習的機遇。企業仍然需要通過在數據共同體上開發專有工具和知識來進行競爭,但是他們這樣做的速度會快得多,同時也促進了數據的合作性競爭

數據交換的模式

為集體利益共享數據遠非一個新奇的概念。例如,在開放科學和開放政府中,要求提高信息透明度的呼聲由來已久。儘管如此,出於對競爭對手的懷疑和各自的小算盤,工業界所顯示出的主動性還是很有限的。然而,當工業市場擴展到大眾人群,而有遠見的利他主義則不然。由於市場是根據供求關係運作的,市場驅動的激勵機制很可能需要紮根於廣泛採用數據共享,因為它正努力將機器學習能力納入其中。在這裡,我們需要探索一些數據交換的模型,來找到設計一個激勵共享的工業生態系統的方法。

一種理解數據共享的方法是網路結構。其中節點表示數據集或原料庫。從這個角度來看,最好的定義數據共享網路的健壯性的參數是它的延遲和在線時間。在線時間對應於數據節點的可見性和可訪問性。當然,在諸如持續學習的應用中,實時數據共享是至關重要的,那麼帶寬造成的延遲就會很重要。但是在這裡,我們只考慮批量學習應用的場景,即獲取訓練數據的延遲更為重要。使用此框架可以幫助我們可視化三種類型的數據交換模式在不同原則下的屬性和差異:開放數據、數據經紀人和數據合作。

圖3. 由於缺乏市場激勵機制,這使得開放數據這個模型難以被大規模使用。而且這種模式尤其容易出現數據異質性的問題。數據經紀人通過收集和銷售數據獲得收益,這將帶來數據規模的增大。在網路里會反映在節點尺寸更大和更多的數據流動性。但是只有客戶和合作夥伴用他們的錢包才能打開付費牆(藍色的圓圈)。數據合作最能協調經濟利益、數據獲取和共享的工作,但需要最大程度的信任和解決冷啟動的挑戰

開放數據模式

公開數據的思想是值得讚揚的,而且這些想法的實現已經產生了巨大的成果,比如Allen Institute正在進行的Allen腦圖譜(Allen Brain Atlas)研究。如果組織機構公開的數據成功地提供了市場可用性,並很好地維護了託管數據的基礎設施,那麼這些公開的數據的可見性和可訪問性很高的。但是由於數據的異質性,有效地將不同組織機構的數據整合在一起會存在很大的延遲。這一點對所有的數據交換模型都具有挑戰性,但在開放數據模式中尤其明顯。因為開放數據的初始意願往往是來自底層的,而沒有強大的來自高層的關於如何整理這些數據的指導和推動。但這個問題是可以解決的。例如,政府機構可以利用資金作為實施標準的槓桿。然而,這並不能解決更大的挑戰。當數據的規模越來越大,生成數據、構造數據集、並為公共使用提供支持需要大量的工作和資金。雖然一些令人欽佩的人受公開數據的感召而承擔了這一責任,但他們只是少數。即使理解並同意數據共享的價值,大多數想要成為數據貢獻者的人也不會承擔這些額外的工作。最終,就需要有更多的激勵(來促進數據流動)。

數據經紀人模式

一種明顯的激勵方式是引入金錢獎勵。將數據貨幣化具有鼓勵商業化數據收集和銷售以獲取利潤的自然效果。由於該業務模型與數據整合非常吻合,因此相比開放數據項目,數據經紀人模式內在地解決了海量數據的規模問題,同時業務模式還是持續的,因為數據經紀人會很積極地去推銷他們的產品。不過雖然數據的可見性可能很高,但實際的數據可訪問性是隱藏在付費牆之後的。結果就是數據可以在網路上快速移動,但僅限於付費用戶和合作夥伴之內。儘管如此,數據經紀公司通過為終端應用提供數據主幹網,已經為現代金融和電子商務業務提供了極有用和有效的驅動力。

不過數據經紀模式也面臨著一些限制,特別是與它們處理的數據類型有關。也就是說,由於花費較多,高收購成本的數據對於數據經紀人來說並不那麼容易接受。例如,儘管增加醫療數據的共享和交換是毫無疑問得非常有價值,但與從能從網上免費獲取大量的消費者和金融數據相比,獲得病人同意的過程很明顯是過於昂貴的。因此,數據經紀人對醫療保健和其他高數據獲取成本(DAC)的行業一般都避而遠之,這就導致了這些數據的共享很差。思考一下高DAC(因為數據是由運行實際物理實驗產生的)的醫藥、化學和材料等有重要的科學企業的領域。這些領域正是機器學習的推斷科學能夠帶來巨大進步的領域。但由於缺乏數據流動性,它們在爭相採用機器學習技術時處於非常不利的地位。在數據所有權嚴重分散的地區,數據經紀模式的效果最好。但它很難在數據壟斷行業行得通,因為這些行業是有非常高的數據壟斷所帶來的優勢和非常少的分享數據的激勵。

數據合作模式

數據合作是一種成員模式,它在協調利益一致方面具有強大的優勢。在理想情況下,由於成員集體受益於合作,這吸引了新成員的加入,從而進一步擴大了成員的集體利益,由此形成了良性循環。合作(甚至是合作性競爭)的好處是非常強大的。例如,合作的成員可以形成數據的標準,以幫助應對整合異構數據的挑戰。同時數據流動性甚至可能高於經紀人模式,因為合作成員可能比心思各異的合伙人更願意透明地協調數據交換。也許合作模式最明顯的優勢在於協調一致地共同投資於數據生成和獲取的能力。這為解決如上所述的高DAC、低數據流動性行業所面臨的挑戰提供了一個關鍵的槓桿。合作社可以集體決定哪些數據更重要並集中資源來收集,從而降低獲取這些數據的工作量、成本和重複勞動。

像半導體研究公司(SRC)這樣有影響力的行業協會提供了一個例子,展示了這種動態的數據合作是如何運作的。SRC是成功的合作性競爭的一個超級好的例子,它是由合作夥伴和競爭對手圍繞著半導體行業價值鏈組成的。每年,各成員集體制定研發重點領域,以應對行業面臨的最關鍵的技術挑戰。SRC會資助其中的一些項目,並促進成員公司之間的知識轉移。當取得突破性進展的時候,研究結果會按協議被共享,並且認為這些技術是先於競爭的。也就是說,技術的發展對於行業中的每個人來說都是一個共同的福利,而競爭最終應該集中在產品的供應和差異化上。在軟體世界中,Linux基金會提供了另一個有意義的例子。在數據世界裡,這種「把餅做大」的思考方法將會改變整個行業,但迄今為止還尚未出現。當前數據合作所面臨的主要挑戰是冷啟動問題。在企業有意願貢獻有價值的數據之前,必須建立信任。實際上看到別人分享數據是建立信任的好方法。

數據的重要性將會繼續放大,有時會非常強烈。伴隨著企業搞清楚如何從數據中獲取價值,他們對隱私和安全方面的擔憂同時也會增加。我預計很快就會看到許多創新的解決方案來解決圍繞數據所有權和交易所產生的挑戰。然而,我們不應該預先假定這些問題會在無需思考和工作的情況下自行解決。有太多的可能我們會把這件事做錯。新出現的概率計算範式對人類的進步和新發現帶來了太多的希望,但這一切可能被數據的零和博弈所抑制。

This article originally appeared in English: "Data liquidity in the age of inference".

Roger Chen

Roger Chen正在創建一家新的風投公司。他也是O"Reilly 人工智慧大會的聯合主席之一。在此之前,他曾是O"Reilly AlphaTech Ventures (OATV)的合伙人。在OATV,他投資早期的初創公司,並主要從數據、機器學習和機器人技術領域幫助這些公司。Roger有一段深刻的、有實踐經驗的技術歷史。在從事風險投資之前,他曾是一名工程師和科學家。他在加州大學伯克利分校(UC Berkeley)以博士研究員的身份進行新的納米技術的研究,並曾在Oracle、EMC和Vicor擔任工程師。他持有波士頓大學的電氣工程專業的學士學位和加州大學伯克利分校的電氣工程專業博士學位。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 OReillyData 的精彩文章:

2018,不容錯過的世界人工智慧大會——AI Conference

TAG:OReillyData |