機器學習、大數據、雲計算會端掉量化寬客的飯碗嗎？

最新 02-07

現在每個行業、每個人都在說大數據、雲計算，似乎有了這個東西就可以大把撈錢無往不利。實際上，可能絕大部分人並不清楚到底什麼是大數據、雲計算。所謂大數據，其實就是很多很多的數據，以及處理這很多很多的數據的方法。這更多的是一個純粹的計算機技術方面的概念。數據量的變化，會導致存儲和加工方式的改變。從計算機誕生之日起，一直到現在，數據的存儲和處理基本上都是在單台機器上上完成的。當數據量不斷增長時，應對的主要方法一是換存儲量更大，性能更好的機器，二是縮減數據，把所謂的冷數據（例如五年前的交易數據）導出到磁帶庫里。在這過程中，也有人提出了分散式存儲、並行處理的方法，有好的產品，比如td的數據倉庫，也有不好的，比如...但這些產品都有一個特點，技術保密，價格昂貴。進入互聯網時代，搜索引擎誕生了。搜索引擎要處理的網頁數據的增長是十分迅猛的，很早以前就已經到了pb級別，這是傳統行業不能比的。這種數據量，用傳統方法處理代價非常高，甚至是無法處理，基本上當時沒有一款主流資料庫敢說自己能高效處理pb級別的數據，td的數據倉庫也就是tb級別。為了應對這個問題，google開發出了一種分散式的數據存儲和加工方法，這種方法可以使用廉價機器組成集群，還能保證可靠性。並且，最重要的是，Google把他的核心演算法寫成論文發表了。之後誕生了開源的Hadoop，然後，pb級別的數據有了廉價的處理方法，再然後，全世界都開始大數據了。而所謂的雲計算，可能更多的是一種計算服務方式的概念。他的幾個要點是，可分配計算資源，虛擬化，可伸縮，等等。數據挖掘演算法本質上是統計學方法以及一些數學模型，這些演算法應用前，都需要對目標數據進行預處理，去除雜訊，提取高關聯度屬性，或者做一些數學變換等等。演算法本身對數據維度的大小也是有限制的，並不是越多越好。大數據對數據分析來說意味著什麼可選擇的數據變多了，同時也要花費更多的時間來去除無用的數據。對於數據分析來說，最重要的，還是合適的模型。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※機器學習有助更好理解糖尿病
※使用TensorFlow，Kafka和MemSQL進行實時機器學習

TAG:機器學習 |