有監督學習選擇深度學習還是隨機森林或支持向量機？

科技 05-18

下面為一些關於深度神經網路在效果上什麼情況下要好於或差於隨機深林或支持向量機。

在日常機器學習工作或學習中，當我們遇到有監督學習相關問題時，不妨考慮下先用簡單的假設空間（簡單模型集合），例如線性模型邏輯回歸。若效果不好，也即並沒達到你的預期或評判效果基準時，再進行下換其他更複雜模型來實驗。

隨機森林VS 支持向量機

我更願意認為隨機深林是讓你毫無壓力的統計模型方法，假如在機器學習過程中存在這樣事實：沒有超參數需要調（除了樹的數量，而一般，樹越多效果越好）。相反，支持向量機則有非常多參數需要調整，如選擇最合適的核函數，正則懲罰等。

隨機深林和支持向量機都是非參數模型（複雜度隨著訓練模型樣本的增加而增大）。相較於一般線性模型，就計算消耗來看，訓練非參數模型因此更為耗時耗力。分類樹越多，需要更耗時來構建隨機森林模型。同樣，我們訓練出來的支持向量機有很多支持向量，最壞情況為，我們訓練集有多少實例，就有多少支持向量。雖然，我們可以使用多類支持向量機，但傳統多類分類問題的執行一般是one-vs-all（所謂one-vs-all就是將binary分類的方法應用到多類分類中。比如我想分成K類，那麼就將其中一類作為positive），因此我們還是需要為每個類訓練一個支持向量機。相反，決策樹與隨機深林則可以毫無壓力解決多類問題。

至此，我們總結如下：對於相關從業者來說，隨機森林在訓練模型上要更為簡單。你很容易可以得到一個又好且具魯棒性的模型。隨機森林模型的複雜度與訓練樣本和樹成正比。支持向量機則需要我們在調參方面做些工作，除此之外，計算成本會隨著類增加呈線性增長。

深度學習

就經驗來說，我更願意認為支持向量機在存在較少極值的小數據集上具有優勢。隨機森林則需要更多數據但一般可以得到非常好的且具有魯棒性的模型。而，至於深度學習演算法，好吧，則需要更多的數據量來訓練好的模型，你也需要再合適時間內選擇合適基礎架構去訓練他們。往往，深度學習演算法需要耗時更大，相比於諸如隨機森林和支持向量機那樣的現成分類器，安裝配置好一個神經網路模型來使用深度學習演算法的過程則更為乏味。但不可否認，深度學習在更為複雜問題上，如圖片分類，自然語言處理，語音識別方面更具優勢。另外一個優勢為你不需要太關注特徵工程相關工作。實際上，至於如何選擇分類器取決於你的數據量和問題的一般複雜性（和你要求的效果）。這也是你作為機器學習從業者逐步會獲得的經驗。

就預測效果來看，有許多情況下是支持向量機好於隨機森林，反之亦然。可以參考以下論文：

·Caruana, Rich, and Alexandru Niculescu-Mizil. "An empirical comparisonof supervised learning algorithms." Proceedings of the 23rdinternational conference on Machine learning. ACM, 2006.

有監督學習選擇深度學習還是隨機森林或支持向量機？

對深度學習來說，也一樣道理。假如我們來查閱MNIST效果（http://yann.lecun.com/exdb/mnist/)）。最好的模型來訓練這些數據為35 ConvNets，據報道只有0.23%的預測錯誤。而最好的支持向量機則有0.56%錯誤率。如下圖所示：

有監督學習選擇深度學習還是隨機森林或支持向量機？

The ConvNet組合獲得了更好的準確率（我們假設預測為無偏估計，也即系統誤差為零的估計（無偏估計是參數的樣本估計量的期望值等於參數的真實值。估計量的數學期望等於被估計參數，則稱此為無偏估計，如設A =g(X1,X2,...,Xn)是未知參數A的一個點估計量，若A 滿足E(A ）= A則稱A 為A的無偏估計量，否則為有偏估計量。)。但值得注意的是the 35 ConvNet committee更為的耗時。所以，如果你有決策權，僅僅提高0.33%是否值得要花費那麼大代價去換取呢）好吧，在某些情況是值得的，如金融部門或非實時預測，但其他情況下則並不一定。

至此，給出我的實踐經驗如下：

★定義好效果評估方法指標去衡量你的模型效果

★捫心自問：你期望的效果是多少，需要什麼硬體花銷，項目什麼時候截止

★從最簡單模型開始

★假如你並沒滿足你的期望，去嘗試更複雜的模型（假如技術上可以實施的話）

來源：人工智慧招聘

作者Bio：SebastianRaschka做為一位數據科學家，對機器學習充滿熱情，熱愛Python和開源。著有 Python Machine Learning ，密歇根州立大學（成立於1855年的密歇根州立大學（MichiganState University簡稱MSU）位於美國密歇根州蘭辛市，是一所美國一流的公立研究型大學，同時也是公立常青藤的一員）。

有監督學習選擇深度學習還是隨機森林或支持向量機？