當前位置:
首頁 > 科技 > 你的加密貨幣有價值嗎?這裡有一個深度學習ICO詐騙鑒別系統

你的加密貨幣有價值嗎?這裡有一個深度學習ICO詐騙鑒別系統


選自arXiv


作者:Shuqing Bian等


機器之心編譯





隨著區塊鏈的熱潮,加密數字貨幣正吸引著越來越多人的注意。然而,面對層出不窮的新「幣種」,我們很難判斷其投資價值,甚至會面臨很大的欺詐風險。近日,香儂科技創始人、斯坦福大學博士李紀為聯合美國加州大學聖塔芭芭拉分校、斯坦福大學共同提出了一種基於深度學習的加密數字貨幣 ICO 詐騙鑒別系統 IcoRating,試圖幫助解決這一問題。這種新方法評估了市面上絕大部分加密貨幣的生命周期、價值變化與其 ICO 信息(包括白皮書、github 庫、創始人信息)之間的關聯,去預測並實現了很高的準確率。


引言


加密貨幣(如 BTC、ETH、NEO 等)正吸引著越來越多人的關注。與中心化電子貨幣和中心化銀行系統相反,大多數數字代幣不需要任何授權。這些去中心化系統通過區塊鏈運轉,區塊鏈是一個開放、持續增長的分散式賬本。加密貨幣的市場資本化在過去的三年中取得了顯著增長,如圖 1 所示。根據 CoinMarketCap.com 提供的數據,加密貨幣日最高交易量接近 2017 年紐約證券交易所的日均交易量。


因其去中心化的本質,加密貨幣眾籌不需要滿足風險投資的必要條件,而是經過 ICO。在 ICO 中,投資者用法定貨幣(如美元、人民幣)或其他加密貨幣(BTC、ETH)來獲得眾籌的加密貨幣。ICO 後,這些眾籌的加密貨幣成為具備貨幣功能的貨幣單元。新型加密貨幣發行前一般會先準備一個白皮書,詳細介紹這個幣的商業、技術和財政細節。如圖 2 所示,ICO 項目的數量從 2013 年 7 月到 2017 年 1 月穩定增長,而 2017 年突飛猛進。



圖 1: 市場資本化 v.s. 時間


圖 2:新 ICO 項目的數量 v.s. 時間


儘管 ICO 項目可以提供公平的投資機會,眾籌的便捷性給肆無忌憚的企業創造了使用 ICO 進行「拉高出貨」的機會。也就是說 ICO 的發起人抬高了眾籌加密貨幣的價格(「俗稱拉盤」),然後迅速出售加密貨幣來獲利(「俗稱砸盤」)。此外,加密貨幣的去中心化本質對政府監管帶來了極大的挑戰。根據 Engadget 的數據,2017 年,902 個基於眾籌的數字貨幣中 46% 都失敗了。圖 3 和圖 4 展示了一個更嚴重的問題。圖 3 和圖 4 中 x 軸上每一個間隔(bucket)表示價格改變範圍,y 軸上對應的值表示 ICO 項目的百分比。可以看到的,4.56% 現有 ICO 項目在發行半年後都遭受了價格下跌,下跌程度超過令人髮指的 99.9%,一年後該比例甚至上升到了 6.89%。大約 29% 的項目在半年後價格下降超過 80%,一年後這一比例上升到了 39.6%。雖然說每一個價格驟跌的 ICO 項目都是詐騙是不確切的,但構建一個可靠的 ICO 信用評級系統在 ICO 之前對數字貨幣進行評估是必要且緊迫的。




圖 3: ICO 項目百分比 vs 半年後價格變化


圖 4:ICO 項目百分比 vs 一年後價格變化


本論文提出 IcoRating,一種基於機器學習的 ICO 評級系統。通過分析 2251 個 ICO 項目,研究者關聯了數字貨幣的生命周期和價格變化與不同級別的 ICO 信息,包括白皮書、創始團隊、GitHub 庫、網站等。通過整合不同種類的信息,該模型能夠以 0.83 的準確率和 0.80 的 F1 分數預測一個 ICO 項目能夠在 ICO 半年以後依然存活。


IcoRating 是一個基於機器學習的系統。與人類評級系統相比,IcoRating 有兩大強項:(1)客觀性:機器學習模型包含更少的先驗知識,可以從數據中學習因果關係,這與需要大量人類專家的人類評級系統相反,且人類專家不可避免會引入錯誤。(2)不會被肆無忌憚的人隨意篡改:該信用評級結果是機器學習模型通過黑箱訓練得到的輸出。該過程涉及極少的人為操作。


希望這個工作可以鼓勵大家更多地分析和評估 ICO 項目的質量,並且可以潛在地幫助投資者識別哪些是 ICO 項目詐騙。


本論文其餘部分的結構如下:第二部分簡要概述加密貨幣、區塊鏈和 ICO。第三部分介紹了 ICO 項目數據集的構建過程,並且提供了一些基本的數據分析。第四章介紹了論文提出的機器學習模型,第五部分是簡短總結。

加密貨幣、區塊鏈和 ICO


加密貨幣


加密貨幣是「一種數字資產,旨在作為交換媒介,使用加密技術來保護其交易。」大多數加密貨幣使用去中心化控制。第一個去中心化的加密貨幣是比特幣(簡稱 BTC)(Nakamoto, 2008),由一個或一群不明身份的人用 Satoshi Nakamoto(中本聰)的名字於 2009 年創建。自 BTC 出現後,多種加密貨幣被創造出來,最著名的包括 Ethereum、Ripple、EOS 和 NEO。


區塊鏈


加密貨幣的交易由區塊鏈進行驗證。人們可以將區塊鏈視為分散式賬本,它不斷增長並永久記錄兩方之間的所有交易。每條記錄叫作一個塊,包含鏈接到前一個塊、時間戳和交易數據的加密哈希指針。賬本以分布形式被所有參與者擁有,且記錄只能在改變所有後續網路塊的情況下得到更改。交易被廣播給網路中的所有節點。區塊鏈使用多種時間戳方案,例如工作量證明或股權證明。區塊鏈概念消除了數據集中儲存的風險:它沒有中心故障點,數據對每個參與者都是透明的。


ICO


ICO 是以加密貨幣為中心的眾籌融資手段。在 ICO 中,眾籌加密貨幣(主要以代幣形式)被轉移給投資者,以換取法定貨幣或其他加密貨幣。當 ICO 的融資目標達到時,這些代幣就成為具備貨幣功能的貨幣單元,可用於交易貨物或者其他加密貨幣。


ICO 為早期項目提供眾籌機會,以逃避風險投資家、銀行和證券交易所的規定。它們還提供了超越風險投資或私募股權投資的投資機會,二者是早期投資機會的主導。另一方面,由於缺乏監管,ICO 給投資者帶來了重大風險。不同的國家對 ICO 和加密貨幣有不同的規定。例如,中華人民共和國政府禁止所有 ICO,而美國證監會(SEC)則表示它有權對 ICO 應用聯邦證券法,而委內瑞拉政府則推出了自己的加密貨幣 petromoneda。

數據集構

建、處理和分析


研究者收集了 2251 個 ICO 項目的信息,包括白皮書、網站信息、ICO 時的 GitHub 庫,以及創始團隊。我們從多個提供商處獲取數據,提供商包括 CryptoCompare、CoinMarketCap 和 CoinCheckup。


LDA


研究者在收集到的白皮書上運行了一個潛在狄利克雷分布(LDA)模型(Blei et al., 2003)。LDA 是一個生成統計模型,解釋了具備基於詞共現的詞叢(即「topic」)的文本文檔。每個文檔以潛在主題的概率分布形式呈現,每個潛在主題都是詞的概率分布。LDA 的生成過程如圖 5 所示,過程圖示見圖 6。



圖 5:在收集到的白皮書上運行 LDA 模型。




圖 6:LDA 模型概覽。假設我們有 M 個白皮書、K 個主題、V 個不同單詞。每個白皮書 m ∈ M 都有文檔-主題分布 θ(M × K 矩陣)。每個主題 k ∈ K 都有主題-單詞分布 φ(K × V 矩陣)。


ICO 評級模型


IcoRating 是一個基於機器學習的評級模型。這裡使用的模型是監督學習模型。在標準監督學習設置中,研究者希望找到模型 F,可使輸入 x 映射至輸出 y:



輸入 輸入 x 是 ICO 項目,包括其公開可獲取的各方面信息。



表 2:不同 LDA 主題的 top word,以及分配至該主題的加密貨幣。


輸出 輸出 y ∈ {0, 1} 是一個二分變數,表示輸入 ICO x 是否為詐騙項目。這裡的關鍵問題是如何確定 ICO 項目是詐騙項目。本文認為如果數字貨幣在其 ICO 一年後下跌 80%,則該 ICO 項目是詐騙項目。換言之,通過檢查數字貨幣的歷史價格,如果數字貨幣一年後的價格不到初始價格的 20%,則我們認為該 ICO 項目是詐騙。在收集到的 2251 個項目中,研究者收集了 1482 個項目的歷史價格,且這些 ICO 項目都實施至少一年(截止到本研究進行時)。


結果


實驗結果展示了使用不同的特徵組合識別 ICO 詐騙項目的結果。隨著 m 值從 0.01 逐漸提升至 1,詐騙項目的比例也逐漸增加,查准率不斷提升,召回率逐漸降低。實驗顯示,白皮書和 GitHub 庫是最重要的兩類特徵,在 m 值分別為 0.1 和 0.5 時 F1 分數都達到了 0.7。研究者考慮了更多特徵,能夠逐漸獲得更好的查准率和召回率。研究者使用所有類型的特徵,在 m=1 時預測 ICO 詐騙項目達到了 0.83 的查准率、0.77 的召回率和 0.80 的 F1 分數。



表 5:識別 ICO 詐騙項目的結果。


論文:IcoRating: A Deep-Learning System for Scam ICO Identification



論文鏈接:https://arxiv.org/pdf/1803.03670.pdf


摘要:加密貨幣(或數字代幣、數字貨幣,如比特幣、以太幣、 XRP 和 NEO)近年來在公眾使用、看重程度和理解方面增長迅速,為投資者帶來了驚人的利潤。與其他貨幣或銀行系統不同,大多數數字代幣無需中央授權。這種去中心化的方式對信用評級構成了重大挑戰,大多數 ICO 項目目前不受政府監管,這意味著我們急需一種值得信賴的 ICO 評級系統。


本論文介紹了 IcoRating,第一個基於機器學習的加密貨幣評級系統:我們分析了目前 2251 種數字貨幣,並評估了貨幣的生命周期、價格變化與其 ICO 信息之間的關聯,ICO 信息包括白皮書內容、創始團隊、GitHub 庫和網站。該系統預測 ICO 詐騙的準確率達到了 0.85。


我們希望該研究可以幫助投資者識別 ICO 詐騙,同時引出更多對 ICO 項目的分析與評估研究。




點擊閱讀原文,從技術到產品體驗搜狗機器翻譯




喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

活動 | INTERFACE#4 解讀搜狗機器翻譯技術,體驗搜狗旅行翻譯寶產品
Jeff Dean撰文回顧谷歌大腦2017:從基礎研究到新硬體

TAG:機器之心 |