部分基本名詞解析

最新 02-21

訓練集、驗證集和測試集

訓練集（training set）：在選擇某些超參後，用於訓練模型的集合。一般訓練集中每個樣本都會被用到至少一次甚至多次，隨機抽取情況下可能會出現某些「運氣差的」樣本從未被使用。

驗證集（validation set）：為了找到一組好的超參，在整個訓練過程中時不時用驗證集計算準確率，用於觀測訓練過程（防止過擬合，觀察是否震蕩、收斂等）。驗證集不參與訓練，即不會改變模型參數。

測試集（test set）：在找到一組最好的超參，並訓練好模型後，再用測試集測試模型，以證明模型的分類能力和泛化能力。一般在報告、論文中提到的準確率以測試集為準，測試集僅在調參、訓練過程結束後使用。

泛化

泛化（generalization）：演算法對新鮮樣本的適應。學習的目的是學到隱含在數據對背後的規律，對具有同一規律的訓練集以外的數據，經過訓練的網路也能給出合適的輸出，該能力稱為泛化能力。用一個詞形容是：舉一反三。

過擬合與欠擬合

過擬合（overfitting，或高方差high variance）：模型訓練過度，使得訓練誤差小，但在測試誤差大，模型泛化能力低。

欠擬合（underfitting，或高偏差high bias）：模型過於簡單，沒有很好地起到分類作用。

正則化

正則化（regularization）：根據英文單詞（譯名太「學術化」），望文生義，regularization是讓模型找到數據之間的內在規律，那麼我們希望這個規律/模型是簡單的，可解釋的，具有一定魯棒性的，正則化的作用正是在此，具體做法是加入正則化懲罰項R。

L1正則化：參數絕對值的和，又叫Lasso（套索）。L0正則化是向量中非的元素的個數。L0、L1正則化都傾向於讓大部分元素變為，讓參數變得更稀疏。並且，L1範數是L0範數的最優凸近似，它比L0範數要容易優化求解，所以一般常用L1範數。「稀疏」使得對特徵有選擇性(Feature Selection)，對原理有可解釋性(Interpretability)。

L2正則化：平方和的算術平方根，即L2範數。在回歸中，把它叫成「嶺回歸」（Ridge Regression），也叫「權值衰減」（Weight Decay）。L2正則化傾向於讓每個元素都儘可能小（接近零而不等於零），讓模型更簡單（防止噪音對參數造成巨大影響，減小多項式中某些分量的權重以減小其對輸出的影響）。L2正則化能夠防止過擬合，提高模型的泛化能力；防止出現「病態條件」（ill-conditioned），即某一參數發生極小的改變，但使結果發生巨大的改變，模型對參數敏感，可以認為L2正則化防止「蝴蝶效應」發生。

優化器

使得目標函數達到最優的演算法即為優化器。

批量梯度下降法（Batch Gradient Descent，BGD）是最小化所有訓練樣本的損失函數，使得最終求解的是全局的最優解。批量梯度下降法不適合用在數據量大的場合。

隨機梯度下降法（Stochastic Gradient Descent，SGD）：在計算梯度的時候，每次從訓練集中隨機選擇一個樣本來進行學習。隨機梯度下降法是最小化每個樣本的損失函數雖然不是每次迭代得到的損失函數都向著全局最優方向，但是大的整體的方向是向全局最優解的，最終的結果往往是在全局最優解附近。隨機梯度下降法存在著噪音，會引起震蕩。

小批量梯度下降法(Mini-Batch Gradient Descent，MBGD)綜合了BGD與SGD，在每次更新速度與更新次數中間取得一個平衡，其每次更新從訓練集（n個）中隨機選擇m個（m

Momentum（動量）法：在峽谷地區，SGD會在這些地方附近振蕩，從而導致收斂速度慢。這種情況下，Momentum便可以解決，具體做法是在參數更新項中加上一次更新量(即動量項)。更新模型參數時，對於那些當前的梯度方向與上一次梯度方向相同的參數，那麼進行加強，即這些方向上更快了；對於那些當前的梯度方向與上一次梯度方向不同的參數，那麼進行削減，即這些方向上減慢了。因此可以獲得更快的收斂速度與減少振蕩。

Nesterov Accelerated Gradient法（NAG，涅斯捷羅夫梯度加速法）避免盲目地選擇斜坡下降，選擇在遇到傾斜向上之前應該減慢速度，防止過快。

Momentum法和NAG法做到每次學習過程中能夠根據損失函數的斜率做到自適應更新來加速SGD的收斂。

Adagrad法：能夠對每個參數自適應不同的學習速率，對稀疏特徵，得到大的學習更新，對非稀疏特徵，得到較小的學習更新，因此該優化演算法適合處理稀疏特徵數據，能夠很好的提高SGD的魯棒性，但是學習率會收縮並最終會變得非常小。

RMSprop法和Adadelta法：解決Adagrad學習率急劇下降問題的。

Adaptive Moment Estimation法（Adam法）：借鑒了Adadelta和RMSprop和Momentum的演算法特點，比其他適應性學習方法效果要好，非常常用的優化器。

GIF

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自陳米的精彩文章:

TAG:陳米 |