白碩:背靠背知識協同,區塊鏈X人工智慧新途徑
9月11日,在2018第四屆區塊鏈全球峰會上,前上海證券交易所總工程師白碩發表了名為《背靠背知識協同,區塊鏈與人工智慧結合新途徑》的主題演講。他認為參與者不願意、不敢、不能分享數據已成為區塊鏈時代技術落地的一大挑戰。
以溯源為例,通過區塊鏈技術可以看到商品從源頭到零售之間完整的簽名鏈,但這也意味著中間商的商業合作也將公之於眾,能否隱去中間關係又保證確實經歷過中間環節?
白碩認為,通過背靠背知識協同這一技術就可以在不泄露實體信息的情況下見證一個關係,即不碰對手方內容實現數據互相聯通。
以下為白碩演講全文,經巴比特整理:
我們經常提到數據孤島,數據被分割在不同主體手裡難以流通,其現實原因在於企業不願意、不敢及不能分享。
不分享在於分享後得不到應有收益,因為當前對數據分享的價值缺乏精準測度。不敢分享在於分享就失去了權益,無法管控數據是否會被進一步擴散。不能分享則在於法律、法規甚至是隱私層面的限制。
既想要分享,又想要保護,陷入兩難局面。能不能有機結合?在保護數據不離開藩籬(原有邊界)的同時又引導數據流通,形成一種協同效果?
解決這個問題區塊鏈領域已有一些探索。比如說Zcash,它要解決的就是UTXO模型下需要見證支付的有效性和支付以後賬目的平衡問題。如果賬目不公開,在原有邏輯里沒有辦法做關係見證。現在利用零知識證明方法,可以在秘密狀態下見證這樣一種關係。這才有了這種以隱私方式記錄交易的貨幣。
裸數據交易不存在,交易對賬、溯源等都要背靠背知識協同
基於數據的兩難局面並非空想,它有很多現實場景。比如在交易後對賬場景上,假設登記結算機構、交易所、券商在場內完成交易,交易後對賬時共同記賬可以省去對賬環節,提高效率。但登記結算機構和交易所得到的是全量賬,券商可能只是單邊行為,客戶以它為通道做了一個單邊單子,那些不是它的客戶的交易者它不應該看見。所以,大家既要維護同樣一個賬本,同時又需設置隱私。
溯源也一樣。我們可以在零售端看到完整的簽名鏈,由此那些中間商的上下游關係、商業合作夥伴都將暴露在零售端。能不能把中間關係隱去,同時還能保證確實經過了中間環節的簽字?
再看供應鏈金融,在融資過程中,企業白條是區塊鏈記賬的單位,它從下游朝著供應鏈上遊走,越上游單位越小,越需要融資,真正的融資需求發生在上游。這裡面的問題在於,白條從下游往上遊走的時候,它跟誰是合作夥伴關係?它需要拆分,給誰拆分了多少?這兩個敏感信息能不能隱起來,但又能見證白條流通的合法性。
大數據交易、裸數據交易是不存在的。現在普遍採用API調用的方式把數據交易變成基於數據服務的交易,利用區塊鏈進行精準記賬。
兼顧去中心化和隱私保護強度的方法就是零知識證明、同態加密、環簽名等方法。但這些方法的問題在於不可能三角,在保證隱私和去中心化的情況下會犧牲效率。當然,最近也有很多效率提升的方法被提出來。
總之,數據要匯聚才能產生某種協同效應,當數據不離開原位的情況下,能不能產生類似結果?能不能做到不泄露參數就用這些參數做輸入計算?能不能不碰對手方的內容還能實現和對手方的互相聯通?這些都是背靠背協同機制想要達到的目的:在不泄露實體信息的情況下見證一個關係。
背靠背求交集
背靠背知識協同機制分兩塊,一塊是背靠背求交集,另一塊是背靠背訓練模型(協同學習)。先來講背靠背求交集,它指的是兩個機構合作,比如廣告商和手機商,雙方想把共有客戶的手機號碼求出來,但雙方都不能讓對方知道雙方手機號碼的全集。
怎麼辦?把全集數據交給第三方,由它求交集後把結果輸出給雙方是一個方案,問題在於,第三方擁有了全集數據,它會不會擴散?黑客盜取了這些數據後會不會擴散?或者,雙方寫一段求交集程序,有了結果後再把存儲了全集數據的盤子砸掉。再或者把帶有哈希值的數據寫到智能合約里求交集,這省去了第三方但又不安全。
有什麼好辦法?我們提出,進行某種擾動或者加擾。A先加擾,給對方,對方加擾,給智能合約。B也是,先加擾,再給A加擾,再給智能合約,由智能合約來求加擾之後的數據交集。加擾前後順序是不是有問題?我們認為,只要加擾的運算元在數學上叫做可交換的,它就是成立的。用這種方法時,只要運算元足夠安全可靠,就可以利用它做背靠背求交集工作。這種方法,可以支持一些不希望透露全集的雙邊和多邊合作,各自只要部署各自的智能合約節點,部署各自的加擾軟體模塊就可以把這個事做下來。
背靠背模型訓練
再看背靠背模型訓練,大家知道,機器學習是人工智慧領域裡的核心功能。學習的結果是得到模型,但模型是數據持續「喂」出來的。比如有幾個醫院,各自有某個病的影像數據,這些影像數據合在一起會訓練出一個更好影像識別模型。但影像數據各醫院當寶貝不拿出來。那麼,機器學習這個方案看起來就沒有辦法做相當於數據匯聚效果的模型訓練。
利用同態加密行不行?單個運算還不行,要做一個神經網路,神經網路至少有線性組合。有加也有乘,才能實現線性組合,還有一些非線性的過慮函數。那麼非線性的函數怎麼辦?它明顯是不可能用加和乘。但我們有加和乘組成多相式,多相式可以逼近非線性函數。逼近當然就有誤差,所以這裡要打2個問號。一是產生了誤差,誤差在傳播中就會出現不正確或是問題。二是同態加密輸出回不來,我們只能做試飛或者標籤透明訓練。
還一種方法是利用假數據。每個人手裡有真數據,利用真數據訓練一個模型。針對模型,生成假數據,跟真數據具有高度一致的分布。兩邊把假數據給對方,然後各自用自己的真數據和對方的假數據進行混合,混合之後進行學習。
這三種方法我們比較後採用了生成假數據的方法。我們做過一個雙邊、簡單的實驗,從中發現數據在藩籬裡面分布並不可怕。只要有可以信任的東西,就能把數據通過信任服務,把它組織成一個假裝數據聚合的場景,這個假裝聚合的場景和真聚合的場景非常接近。
這裡有沒有考慮到不願意分享的情況,因為分享過程當中的權益沒有考慮到。但在精準計量後,貢獻的每個假樣本對學習效果的貢獻度可以測出來,因此,在區塊鏈做了精準記錄後就能進行利益方面的安排。
總結一下,背靠背數據協同是一個真實需求,它有非常廣泛的應用場景,它在技術上很有挑戰性。第一個案例是使用了密碼學,第二個案例則用的是生成對抗網路,把它跟區塊鏈進行疊加,同樣可以起背靠背數據協同的作用,在人工智慧、神經網路訓練領域作用明顯。
※OKEX第一家開放交易所即將啟動交易挖礦
※瑞士非政府組織接受加密貨幣捐贈
TAG:巴比特資訊 |