當前位置:
首頁 > 新聞 > 機器學習競爭其實是一場數據上的競爭

機器學習競爭其實是一場數據上的競爭

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

機器學習競爭其實是一場數據上的競爭

那些熱衷競爭實施機器學習的公司現在驚訝地發現,其實,實施一些演算法使機器變得對某一數據或問題更加智能並不困難。畢竟,這年頭「即插即用」又很穩健的演算法編程解決方案簡直「爛大街了」。例如,從開源機器學習框架谷歌TensorFlow,到微軟Azure Machine Learning以及亞馬遜SageMaker,應有盡有。

所以,數據已逐漸成為了機器學習競爭中最關鍵的區分點。一個原因是高質量數據並不常見;另一原因是數據尚未商品化,公司企業之間存在著信息不對稱。

希望藉助AI一臂之力的企業需要尋求外部數據源,甚至這樣的數據甚至可能需要他們自己創建。

有用的數據:有價值、又很稀少

數據逐漸變成競爭中的區分點是因為許多公司根本沒有他們需要的數據。儘管幾十年來,公司都在使用通用的會計準則這樣的系統化方法來評估自己,但是這種評估方法一直關注於實體資產與金融資產,也就是實物和錢。2013年甚至給資產定價理論頒了一個諾貝爾獎,強化了已有的對實體或金融資產重要性的認知。

但是,今天最有價值的那些公司貿易對象是軟體或網路,而不僅僅是實體或金融資產。在過去的40年內,資產類型的重心有了很大的變化:1975年,83%的有形資產占整個市場絕大部分份額;而2015年時市場中84%的資產是無形資產。今天的公司巨頭們不再生產咖啡壺也不再售賣洗衣機,他們轉而提供應用程序,軟體等等。這樣的轉變造成了會計記賬的對象和實際產生價值的對象極其不匹配。

結果就是有用數據的缺少已經成為了一個問題。市麵價值與賬麵價值的差別越來越大。公司們正在試圖利用機器學習輔助重要的商業決策來改善這一差別。有時,機器學習甚至會取代一些昂貴的諮詢顧問們,而最後他們經常會意識到演算法所需的數據壓根不存在。所以實際上,那些閃瞎人眼的先進AI系統最後依舊只是在同樣老舊的數據上試圖實施新技術。

和人類一樣,除非有人教,機器學習系統並不會精通任何領域。不過比起人類,機器會需要更多的信息來進行學習,並且它們確實比人類讀取數據的速度更快。因此,表面上公司間會互相競爭誰擁有更好的機器學習程序員以及誰先啟動AI項目,在幕後其實是對於數據新穎度和廣泛度的競爭。

比如說在金融領域,可供選擇的數據來源遠遠超過了傳統證券交易報告以及投資者展示等。數據還可以來源於社交網路情感分析或者獲批專利數量等。

這些數據源的重要性主要基於兩點原因。首先,傳統數據局限於傳統資產,在當今無形資產當道的時代,覆蓋面上遠遠不夠。第二,並沒有任何必要在市場上所有人都在分析的數據上使用機器學習方法。所有對此感興趣的人都早已經嘗試過分析產業趨勢、利潤率、增長率、息稅前利潤、資產周轉率以及資產回報率和其它上千個常見的變數與股東回報率之間的相關性。

在所有人都在分析的數據上試圖發現相關性並不會幫助公司取勝。相反,希望使用AI取勝的公司需要尋找新數據集之間的聯繫,因此他們可能必須自己創建那些新數據集來評估無形資產。

謹慎思考:你想知道什麼?

創建數據比僅僅把銷售點與顧客信息兩個表聚合到一起然後丟進資料庫複雜得多。大多數企業錯誤地相信通過這樣一種權宜的方法能夠預測或區分出他們關心的信息:把所有能找到的數據都大費周章地聚合到一起然後指望能夠找到一絲希望之光。

儘管機器學習有時會突然發現某些從未有人意識到的事物從而使所有人都大吃一驚,但它並不能夠持續穩定提供這樣的洞察。這並不意味著這項工具很垃圾,這意味著我們需要更明智地使用它。但說起來容易做起來難:比如,在我們研究外部數據市場時,我們發現大多數新數據提供者依舊在關注實體與金融資產。

許多企業遺漏的一步是提出一項真正重要的假設。機器學習真正體現優越性之處在於,它們能夠通過採用人類已經擁有的見解,這可以來自於經驗法則、廣泛認知或者幾乎完全不被理解的相關性,來建設一種速度更快、更易於理解、更易於擴展且更低錯誤率的方法。

為了這樣使用機器學習方法,不應向系統塞進任何你能找到的數據。你僅僅輸入被謹慎思考過的一組信息,希望它能夠學習並拓展,得到比人類掌握的更多的信息。

有意義的機器學習來自於不同的數據

以下是為希望搭建有影響力、有價值的機器學習應用的公司提出的三點建議:

  • 1.成功的AI在於與眾不同的數據。在你的競爭對手都已經掌握的數據上你是得不出什麼新穎信息的。審視企業內部,找出只有你們知道並理解的信息並以此創建一個獨特的數據集。機器學習演算法確實需要大量的數據支持,但這並不意味著模型需要考慮大量變數。你應當把關注點放在企業已經具有獨特之處的數據上。
  • 2.有意義的數據比全面的數據好。你可能就某問題上擁有大量詳盡數據,但它們可能壓根沒什麼用。如果你的公司根本不會在決策過程中隨時使用這些信息,那這樣的數據八成對機器學習也沒有什麼價值。專業的機器學習工程師會詢問許多困難的問題來找出什麼才是真正重要的領域,以及那些領域將如何對該應用程序輸出結果產生影響。如果這些問題對你太難了,那麼你並沒有為得到實際價值而仔細思考。
  • 3.應當從你已知的信息出發。最善於利用機器學習的公司會從一個獨特的視角出發,來找到與他們重要決策最為相關的因素。這將會指導他們去收集何種數據以及使用何種技術。就基於你們團隊已經擁有的一部分知識之上進行拓展這個問題來著手是比較簡單的,這也將為你企業創造更多價值。

很明顯這個時代已經是「軟體吃掉了整個世界」了(這個形容來源於軟體工程師Marc Andreessen)。但它們依然很飢餓!軟體們需要一份包含嶄新數據與科技的食譜來持續創造價值。

沒有人希望落後於這樣的洞察、機器與外部數據的轉變。那麼,請從內部審視企業開始,去發掘你獨特的見解以及你可以而且應該得到的有價值的外部數據來源。通過這些步驟,你才能夠發現保持企業競爭力的相關洞見。

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 矽谷密探 的精彩文章:

DeepMind新成果:讓AI做了200萬道數學題,結果堪憂

TAG:矽谷密探 |