【方法論】機器學習演算法概覽
本文算是接下來文章的一份目錄
以下演算法接下來會逐一展開
1、 監督式學習
工作機制:這個演算法由一個目標變數或結果變數(或因變數)組成。這些變數由已知的一系列預示變數(自變數)預測而來。利用這一系列變數,我們生成一個將輸入值映射到期望輸出值的函數。這個訓練過程會一直持續,直到模型在訓練數據上獲得期望的精確度。監督式學習的例子有:回歸、決策樹、隨機森林、K – 近鄰演算法、邏輯回歸等。
2、非監督式學習
工作機制:在這個演算法中,沒有任何目標變數或結果變數要預測或估計。這個演算法用在不同的組內聚類分析。這種分析方式被廣泛地用來細分客戶,根據干預的方式分為不同的用戶組。非監督式學習的例子有:關聯演算法和 K – 均值演算法。
3、強化學習
工作機制:這個演算法訓練機器進行決策。它是這樣工作的:機器被放在一個能讓它通過反覆試錯來訓練自己的環境中。機器從過去的經驗中進行學習,並且嘗試利用了解最透徹的知識作出精確的商業判斷。 強化學習的例子有馬爾可夫決策過程。
回歸(Regression)
回歸是在自變數和需要預測的變數之間構建一個模型,並使用迭代的方法逐漸降低預測值和真實值之間的誤差。回歸方法是統計機器學習的一種 。
常用的回歸演算法如下:
Ordinary Least Squares(最小二乘法)
Logistic Regression(邏輯斯底回歸)
Stepwise Regression(逐步回歸)
Multivariate Adaptive Regression Splines(多元自適應回歸樣條法)
Locally Estimated Scatterplot Smoothing(局部加權散點平滑法)
基於樣例的方法(Instance-based Methods)
基於樣例的方法需要一個樣本庫,當新樣本出現時,在樣本庫中找到最佳匹配的若干個樣本,然後做出推測。基於樣例的方法又被成為勝者為王的方法和基於內存的學習,該演算法主要關注樣本之間相似度的計算方法和存儲數據的表示形式。
k-Nearest Neighbour (kNN)
Learning Vector Quantization (LVQ)
Self-Organizing Map (SOM)
正則化方法(Regularization Methods)
這是一個對其他方法的延伸(通常是回歸方法),這個延伸就是在模型上加上了一個懲罰項,相當於奧卡姆提到,對越簡單的模型越有利,有防止過擬合的作用,並且更擅長歸納。我在這裡列出它是因為它的流行和強大。
Ridge Regression
Least Absolute Shrinkage and Selection Operator (LASSO)
Elastic Net
決策樹模型(Decision Tree Learning)
決策樹方法建立了一個根據數據中屬性的實際值決策的模型。決策樹用來解決歸納和回歸問題。
Classification and Regression Tree (CART)
Iterative Dichotomiser 3 (ID3)
C4.5
Chi-squared Automatic Interaction Detection (CHAID)
Decision Stump
Random Forest
Multivariate Adaptive Regression Splines (MARS)
Gradient Boosting Machines (GBM)
貝葉斯(Bayesian)
貝葉斯方法是在解決歸類和回歸問題中應用了貝葉斯定理的方法。
Naive Bayes
Averaged One-Dependence Estimators (AODE)
Bayesian Belief Network (BBN)
核方法(Kernel Methods)
核方法中最有名的是Support Vector Machines(支持向量機)。這種方法把輸入數據映射到更高維度上,將其變得可分,使得歸類和回歸問題更容易建模。
Support Vector Machines (SVM)
Radial Basis Function (RBF)
Linear Discriminate Analysis (LDA)
聚類(Clustering Methods)
聚類本身就形容了問題和方法。聚類方法通常是由建模方式分類的比如基於中心的聚類和層次聚類。所有的聚類方法都是利用數據的內在結構來組織數據,使得每組內的點有最大的共同性。
K-Means
Expectation Maximisation (EM)
聯合規則學習(Association Rule Learning)
聯合規則學習是用來對數據間提取規律的方法,通過這些規律可以發現巨量多維空間數據之間的聯繫,而這些重要的聯繫可以被組織拿來使用或者盈利。
Apriori algorithm
Eclat algorithm
人工神經網路(Artificial Neural Networks)
受生物神經網路的結構和功能的啟發誕生的人工神經網路屬於模式匹配一類,經常被用於回歸和分類問題,但是它存在上百個演算法和變種組成。其中有一些是經典流行的演算法(深度學習拿出來單獨講):
Perceptron
Back-Propagation
Hopfield Network
Self-Organizing Map (SOM)
Learning Vector Quantization (LVQ)
深度學習(Deep Learning)
Deep Learning(深度學習)方法是人工神經網路在當下的一個變種。相比傳統的神經網路,它更關注更加複雜的網路構成,許多方法都是關心半監督學習,就是一個大數據集中只有少量標註數據的那種問題。
Restricted Boltzmann Machine (RBM)
Deep Belief Networks (DBN)
Convolutional Network
Stacked Auto-encoders
降維(Dimensionality Reduction)
與聚類方法類似,對數據中的固有結構進行利用,使用無監督的方法學習一種方式,該方式用更少的信息來對數據做歸納和描述。這對於對數據進行可視化或者簡化數據很有用,也有去除雜訊的影響,經常採用這種方法使得演算法更加高效。
Principal Component Analysis (PCA)
Partial Least Squares Regression (PLS)
Sammon Mapping
Multidimensional Scaling (MDS)
Projection Pursuit
組合方法(Ensemble Methods)
Ensemble methods(組合方法)由許多小的模型組成,這些模型經過獨立訓練,做出獨立的結論,最後匯總起來形成最後的預測。組合方法的研究點集中在使用什麼模型以及這些模型怎麼被組合起來。
Boosting
Bootstrapped Aggregation (Bagging)
AdaBoost
Stacked Generalization (blending)
Gradient Boosting Machines (GBM)
Random Forest