機器學習、大數據、雲計算會端掉量化寬客的飯碗嗎?
現在每個行業、每個人都在說大數據、雲計算,似乎有了這個東西就可以大把撈錢無往不利。實際上,可能絕大部分人並不清楚到底什麼是大數據、雲計算。所謂大數據,其實就是很多很多的數據,以及處理這很多很多的數據的方法。這更多的是一個純粹的計算機技術方面的概念。數據量的變化,會導致存儲和加工方式的改變。從計算機誕生之日起,一直到現在,數據的存儲和處理基本上都是在單台機器上上完成的。當數據量不斷增長時,應對的主要方法一是換存儲量更大,性能更好的機器,二是縮減數據,把所謂的冷數據(例如五年前的交易數據)導出到磁帶庫里。在這過程中,也有人提出了分散式存儲、並行處理的方法,有好的產品,比如td的數據倉庫,也有不好的,比如...但這些產品都有一個特點,技術保密,價格昂貴。進入互聯網時代,搜索引擎誕生了。搜索引擎要處理的網頁數據的增長是十分迅猛的,很早以前就已經到了pb級別,這是傳統行業不能比的。這種數據量,用傳統方法處理代價非常高,甚至是無法處理,基本上當時沒有一款主流資料庫敢說自己能高效處理pb級別的數據,td的數據倉庫也就是tb級別。為了應對這個問題,google開發出了一種分散式的數據存儲和加工方法,這種方法可以使用廉價機器組成集群,還能保證可靠性。並且,最重要的是,Google把他的核心演算法寫成論文發表了。之後誕生了開源的Hadoop,然後,pb級別的數據有了廉價的處理方法,再然後,全世界都開始大數據了。而所謂的雲計算,可能更多的是一種計算服務方式的概念。他的幾個要點是,可分配計算資源,虛擬化,可伸縮,等等。數據挖掘演算法本質上是統計學方法以及一些數學模型,這些演算法應用前,都需要對目標數據進行預處理,去除雜訊,提取高關聯度屬性,或者做一些數學變換等等。演算法本身對數據維度的大小也是有限制的,並不是越多越好。大數據對數據分析來說意味著什麼可選擇的數據變多了,同時也要花費更多的時間來去除無用的數據。對於數據分析來說,最重要的,還是合適的模型。
※機器學習有助更好理解糖尿病
※使用TensorFlow,Kafka和MemSQL進行實時機器學習
TAG:機器學習 |