乾貨來襲，谷歌最新機器學習術語表（下）

新聞 03-20

雷鋒網 AI 研習社按，日前，谷歌發布機器學習術語表，AI 研習社獲其授權轉載。以下術語表中列出了一般的機器學習術語和 TensorFlow 專用術語的定義。本文為 M-W（術語首字母）部分，A-L 部分參見乾貨來襲，谷歌最新機器學習術語表（上）。

機器學習 (machine learning)

一種程序或系統，用於根據輸入數據構建（訓練）預測模型。這種系統會利用學到的模型根據從分布（訓練該模型時使用的同一分布）中提取的新數據（以前從未見過的數據）進行實用的預測。機器學習還指與這些程序或系統相關的研究領域。

均方誤差 (MSE, Mean Squared Error)

每個樣本的平均平方損失。MSE 的計算方法是平方損失除以樣本數。TensorFlow Playground 顯示的「訓練損失」值和「測試損失」值都是 MSE。

指標 (metric)

您關心的一個數值。可能可以也可能不可以直接在機器學習系統中得到優化。您的系統嘗試優化的指標稱為目標。

Metrics API (tf.metrics)

一種用於評估模型的 TensorFlow API。例如，tf.metrics.accuracy 用於確定模型的預測與標籤匹配的頻率。在編寫自定義 Estimator 時，您可以調用 Metrics API 函數來指定應如何評估您的模型。

小批次 (mini-batch)

從訓練或推斷過程的一次迭代中一起運行的整批樣本內隨機選擇的一小部分。小批次的規模通常介於 10 到 1000 之間。與基於完整的訓練數據計算損失相比，基於小批次數據計算損失要高效得多。

小批次隨機梯度下降法 (SGD, mini-batch stochastic gradient descent)

一種採用小批次樣本的梯度下降法。也就是說，小批次 SGD 會根據一小部分訓練數據來估算梯度。Vanilla SGD使用的小批次的規模為 1。

機器學習的縮寫。

模型 (model)

機器學習系統從訓練數據學到的內容的表示形式。多含義術語，可以理解為下列兩種相關含義之一：

一種 TensorFlow 圖，用於表示預測計算結構。

該 TensorFlow 圖的特定權重和偏差，通過訓練決定。

模型訓練 (model training)

確定最佳模型的過程。

動量 (Momentum)

一種先進的梯度下降法，其中學習步長不僅取決於當前步長的導數，還取決於之前一步或多步的步長的導數。動量涉及計算梯度隨時間而變化的指數級加權移動平均值，與物理學中的動量類似。動量有時可以防止學習過程被卡在局部最小的情況。

多類別分類 (multi-class classification)

區分兩種以上類別的分類問題。例如，楓樹大約有 128 種，因此，確定楓樹種類的模型就屬於多類別模型。反之，僅將電子郵件分為兩類（「垃圾郵件」和「非垃圾郵件」）的模型屬於二元分類模型。

多項分類 (multinomial classification)

是多類別分類的同義詞。

NaN 陷阱 (NaN trap)

模型中的一個數字在訓練期間變成 NaN，這會導致模型中的很多或所有其他數字最終也會變成 NaN。

NaN 是「非數字」的縮寫。

負類別 (negative class)

在二元分類中，一種類別稱為正類別，另一種類別稱為負類別。正類別是我們要尋找的類別，負類別則是另一種可能性。例如，在醫學檢查中，負類別可以是「非腫瘤」。在電子郵件分類器中，負類別可以是「非垃圾郵件」。另請參閱正類別。

神經網路 (neural network)

一種模型，靈感來源於腦部結構，由多個層構成（至少有一個是隱藏層），每個層都包含簡單相連的單元或神經元（具有非線性關係）。

神經元 (neuron)

神經網路中的節點，通常是接收多個輸入值並生成一個輸出值。神經元通過將激活函數（非線性轉換）應用於輸入值的加權和來計算輸出值。

節點 (node)

多含義術語，可以理解為下列兩種含義之一：

隱藏層中的神經元。

TensorFlow 圖中的操作。

標準化 (normalization)

將實際的值區間轉換為標準的值區間（通常為 -1 到 +1 或 0 到 1）的過程。例如，假設某個特徵的自然區間是 800 到 6000。通過減法和除法運算，您可以將這些值標準化為位於 -1 到 +1 區間內。

另請參閱縮放。

數值數據 (numerical data)

用整數或實數表示的特徵。例如，在房地產模型中，您可能會用數值數據表示房子大小（以平方英尺或平方米為單位）。如果用數值數據表示特徵，則可以表明特徵的值相互之間具有數學關係，並且與標籤可能也有數學關係。例如，如果用數值數據表示房子大小，則可以表明面積為 200 平方米的房子是面積為 100 平方米的房子的兩倍。此外，房子面積的平方米數可能與房價存在一定的數學關係。

並非所有整數數據都應表示成數值數據。例如，世界上某些地區的郵政編碼是整數，但在模型中，不應將整數郵政編碼表示成數值數據。這是因為郵政編碼 20000 在效力上並不是郵政編碼 10000 的兩倍（或一半）。此外，雖然不同的郵政編碼確實與不同的房地產價值有關，但我們也不能假設郵政編碼為 20000 的房地產在價值上是郵政編碼為 10000 的房地產的兩倍。郵政編碼應表示成分類數據。

數值特徵有時稱為連續特徵。

Numpy

一個開放源代碼數學庫，在 Python 中提供高效的數組操作。Pandas 就建立在 Numpy 之上。

目標 (objective)

演算法嘗試優化的指標。

離線推斷 (offline inference)

生成一組預測，存儲這些預測，然後根據需求檢索這些預測。與在線推斷相對。

one-hot 編碼 (one-hot encoding)

一種稀疏向量，其中：

一個元素設為 1。

所有其他元素均設為 0。

one-hot 編碼常用於表示擁有有限個可能值的字元串或標識符。例如，假設某個指定的植物學數據集記錄了 15000 個不同的物種，其中每個物種都用獨一無二的字元串標識符來表示。在特徵工程過程中，您可能需要將這些字元串標識符編碼為 one-hot 向量，向量的大小為 15000。

一對多 (one-vs.-all)

假設某個分類問題有 N 種可能的解決方案，一對多解決方案將包含 N 個單獨的二元分類器 - 一個二元分類器對應一種可能的結果。例如，假設某個模型用於區分樣本屬於動物、蔬菜還是礦物，一對多解決方案將提供下列三個單獨的二元分類器：

動物和非動物

蔬菜和非蔬菜

礦物和非礦物

在線推斷 (online inference)

根據需求生成預測。與離線推斷相對。

操作 (op, Operation)

TensorFlow 圖中的節點。在 TensorFlow 中，任何創建、操縱或銷毀張量的過程都屬於操作。例如，矩陣相乘就是一種操作，該操作以兩個張量作為輸入，並生成一個張量作為輸出。

優化器 (optimizer)

梯度下降法的一種具體實現。TensorFlow 的優化器基類是 tf.train.Optimizer。不同的優化器（tf.train.Optimizer 的子類）會考慮如下概念：

動量 (Momentum)

更新頻率（AdaGrad = ADAptive GRADient descent； Adam = ADAptive with Momentum；RMSProp）

稀疏性/正則化 (Ftrl)

更複雜的計算方法（Proximal，等等）

甚至還包括 NN 驅動的優化器。

離群值 (outlier)

與大多數其他值差別很大的值。在機器學習中，下列所有值都是離群值。

絕對值很高的權重。

與實際值相差很大的預測值。

值比平均值高大約 3 個標準偏差的輸入數據。

離群值常常會導致模型訓練出現問題。

輸出層 (output layer)

神經網路的「最後」一層，也是包含答案的層。

過擬合 (overfitting)

創建的模型與訓練數據過於匹配，以致於模型無法根據新數據做出正確的預測。

Pandas

面向列的數據分析 API。很多機器學習框架（包括 TensorFlow）都支持將 Pandas 數據結構作為輸入。請參閱 Pandas 文檔。

參數 (parameter)

機器學習系統自行訓練的模型的變數。例如，權重就是一種參數，它們的值是機器學習系統通過連續的訓練迭代逐漸學習到的。與超參數相對。

參數伺服器 (PS, Parameter Server)

一種作業，負責在分散式設置中跟蹤模型參數。

參數更新 (parameter update)

在訓練期間（通常是在梯度下降法的單次迭代中）調整模型參數的操作。

偏導數 (partial derivative)

一種導數，除一個變數之外的所有變數都被視為常量。例如，f(x, y) 對 x 的偏導數就是 f(x) 的導數（即，使 y 保持恆定）。f 對 x 的偏導數僅關注 x 如何變化，而忽略公式中的所有其他變數。

分區策略 (partitioning strategy)

參數伺服器中分割變數的演算法。

性能 (performance)

多含義術語，具有以下含義：

在軟體工程中的傳統含義。即：相應軟體的運行速度有多快（或有多高效）？

在機器學習中的含義。在機器學習領域，性能旨在回答以下問題：相應模型的準確度有多高？即模型在預測方面的表現有多好？

困惑度 (perplexity)

一種衡量指標，用于衡量模型能夠多好地完成任務。例如，假設任務是讀取用戶使用智能手機鍵盤輸入字詞時輸入的前幾個字母，然後列出一組可能的完整字詞。此任務的困惑度 (P) 是：為了使列出的字詞中包含用戶嘗試輸入的實際字詞，您需要提供的猜測項的個數。

困惑度與交叉熵的關係如下：

P=2^{?cross entropy}

流水線 (pipeline)

機器學習演算法的基礎架構。流水線包括收集數據、將數據放入訓練數據文件、訓練一個或多個模型，以及將模型導出到生產環境。

正類別 (positive class)

在二元分類中，兩種可能的類別分別被標記為正類別和負類別。正類別結果是我們要測試的對象。（不可否認的是，我們會同時測試這兩種結果，但只關注正類別結果。）例如，在醫學檢查中，正類別可以是「腫瘤」。在電子郵件分類器中，正類別可以是「垃圾郵件」。

與負類別相對。

精確率 (precision)

一種分類模型指標。精確率指模型正確預測正類別的頻率，即：

預測 (prediction)

模型在收到輸入的樣本後的輸出。

預測偏差 (prediction bias)

一個值，用於表明預測平均值與數據集中標籤的平均值相差有多大。

預創建的 Estimator (pre-made Estimator)

其他人已建好的 Estimator。TensorFlow 提供了一些預創建的 Estimator，包括 DNNClassifier、DNNRegressor 和 LinearClassifier。您可以按照這些說明構建自己預創建的 Estimator。

預訓練模型 (pre-trained model)

已經過訓練的模型或模型組件（例如嵌套）。有時，您需要將預訓練的嵌套饋送到神經網路。在其他時候，您的模型將自行訓練嵌套，而不依賴於預訓練的嵌套。

先驗信念 (prior belief)

在開始採用相應數據進行訓練之前，您對這些數據抱有的信念。例如，L2 正則化依賴的先驗信念是權重應該很小且應以 0 為中心呈正態分布。

隊列 (queue)

一種 TensorFlow 操作，用於實現隊列數據結構。通常用於 I/O 中。

等級 (rank)

機器學習中的一個多含義術語，可以理解為下列含義之一：

張量中的維度數量。例如，標量等級為 0，向量等級為 1，矩陣等級為 2。

在將類別從最高到最低進行排序的機器學習問題中，類別的順序位置。例如，行為排序系統可以將狗狗的獎勵從最高（牛排）到最低（枯萎的羽衣甘藍）進行排序。

評分者 (rater)

為樣本提供標籤的人。有時稱為「注釋者」。

召回率 (recall)

一種分類模型指標，用於回答以下問題：在所有可能的正類別標籤中，模型正確地識別出了多少個？即：

修正線性單元 (ReLU, Rectified Linear Unit)

一種激活函數，其規則如下：

如果輸入為負數或 0，則輸出 0。

如果輸入為正數，則輸出等於輸入。

回歸模型 (regression model)

一種模型，能夠輸出連續的值（通常為浮點值）。請與分類模型進行比較，分類模型輸出離散值，例如「黃花菜」或「虎皮百合」。

正則化 (regularization)

對模型複雜度的懲罰。正則化有助於防止出現過擬合，包含以下類型：

L1 正則化

L2 正則化

丟棄正則化

早停法（這不是正式的正則化方法，但可以有效限制過擬合）

正則化率 (regularization rate)

一種標量值，以 lambda 表示，用於指定正則化函數的相對重要性。從下面簡化的損失公式中可以看出正則化率的影響：

minimize(loss function + λ(regularization function))

提高正則化率可以減少過擬合，但可能會使模型的準確率降低。

表示法 (representation)

將數據映射到實用特徵的過程。

受試者工作特徵曲線（receiver operating characteristic, 簡稱 ROC 曲線）

不同分類閾值下的真正例率和假正例率構成的曲線。另請參閱曲線下面積。

根目錄 (root directory)

您指定的目錄，用於託管多個模型的 TensorFlow 檢查點和事件文件的子目錄。

均方根誤差 (RMSE, Root Mean Squared Error)

均方誤差的平方根。

SavedModel

保存和恢復 TensorFlow 模型時建議使用的格式。SavedModel 是一種獨立於語言且可恢復的序列化格式，使較高級別的系統和工具可以創建、使用和轉換 TensorFlow 模型。

如需完整的詳細信息，請參閱《TensorFlow 編程人員指南》中的保存和恢復。

Saver

一種 TensorFlow 對象，負責保存模型檢查點。

縮放 (scaling)

特徵工程中的一種常用做法，是對某個特徵的值區間進行調整，使之與數據集中其他特徵的值區間一致。例如，假設您希望數據集中所有浮點特徵的值都位於 0 到 1 區間內，如果某個特徵的值位於 0 到 500 區間內，您就可以通過將每個值除以 500 來縮放該特徵。

另請參閱標準化。

scikit-learn

一個熱門的開放源代碼機器學習平台。請訪問 www.scikit-learn.org。

半監督式學習 (semi-supervised learning)

訓練模型時採用的數據中，某些訓練樣本有標籤，而其他樣本則沒有標籤。半監督式學習採用的一種技術是推斷無標籤樣本的標籤，然後使用推斷出的標籤進行訓練，以創建新模型。如果獲得有標籤樣本需要高昂的成本，而無標籤樣本則有很多，那麼半監督式學習將非常有用。

序列模型 (sequence model)

一種模型，其輸入具有序列依賴性。例如，根據之前觀看過的一系列視頻對觀看的下一個視頻進行預測。

會話 (session)

維持 TensorFlow 程序中的狀態（例如變數）。

S 型函數 (sigmoid function)

一種函數，可將邏輯回歸輸出或多項回歸輸出（對數幾率）映射到概率，以返回介於 0 到 1 之間的值。S 型函數的公式如下：

在邏輯回歸問題中，σ 非常簡單：

換句話說，S 型函數可將 σ 轉換為介於 0 到 1 之間的概率。

在某些神經網路中，S 型函數可作為激活函數使用。

softmax

一種函數，可提供多類別分類模型中每個可能類別的概率。這些概率的總和正好為 1.0。例如，softmax 可能會得出某個圖像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。（也稱為完整 softmax。）

與候選採樣相對。

稀疏特徵 (sparse feature)

一種特徵向量，其中的大多數值都為 0 或為空。例如，某個向量包含一個為 1 的值和一百萬個為 0 的值，則該向量就屬於稀疏向量。再舉一個例子，搜索查詢中的單詞也可能屬於稀疏特徵 - 在某種指定語言中有很多可能的單詞，但在某個指定的查詢中僅包含其中幾個。

與密集特徵相對。

平方合頁損失函數 (squared hinge loss)

合頁損失函數的平方。與常規合頁損失函數相比，平方合頁損失函數對離群值的懲罰更嚴厲。

平方損失函數 (squared loss)

在線性回歸中使用的損失函數（也稱為 L2 損失函數）。該函數可計算模型為有標籤樣本預測的值和標籤的實際值之差的平方。由於取平方值，因此該損失函數會放大不佳預測的影響。也就是說，與 L1 損失函數相比，平方損失函數對離群值的反應更強烈。

靜態模型 (static model)

離線訓練的一種模型。

平穩性 (stationarity)

數據集中數據的一種屬性，表示數據分布在一個或多個維度保持不變。這種維度最常見的是時間，即表明平穩性的數據不隨時間而變化。例如，從 9 月到 12 月，表明平穩性的數據沒有發生變化。

步 (step)

對一個批次的向前和向後評估。

步長 (step size)

是學習速率的同義詞。

隨機梯度下降法 (SGD, stochastic gradient descent)

批次規模為 1 的一種梯度下降法。換句話說，SGD 依賴於從數據集中隨機均勻選擇的單個樣本來計算每步的梯度估算值。

結構風險最小化 (SRM, structural risk minimization)

一種演算法，用於平衡以下兩個目標：

期望構建最具預測性的模型（例如損失最低）。

期望使模型儘可能簡單（例如強大的正則化）。

例如，旨在將基於訓練集的損失和正則化降至最低的模型函數就是一種結構風險最小化演算法。

如需更多信息，請參閱 http://www.svms.org/srm/。

與經驗風險最小化相對。

總結 (summary)

在 TensorFlow 中的某一步計算出的一個值或一組值，通常用於在訓練期間跟蹤模型指標。

監督式機器學習 (supervised machine learning)

根據輸入數據及其對應的標籤來訓練模型。監督式機器學習類似於學生通過研究一系列問題及其對應的答案來學習某個主題。在掌握了問題和答案之間的對應關係後，學生便可以回答關於同一主題的新問題（以前從未見過的問題）。請與非監督式機器學習進行比較。

合成特徵 (synthetic feature)

一種特徵，不在輸入特徵之列，而是從一個或多個輸入特徵衍生而來。合成特徵包括以下類型：

將一個特徵與其本身或其他特徵相乘（稱為特徵組合）。

兩個特徵相除。

對連續特徵進行分桶，以分為多個區間分箱。

通過標準化或縮放單獨創建的特徵不屬於合成特徵。

目標 (target)

是標籤的同義詞。

時態數據 (temporal data)

在不同時間點記錄的數據。例如，記錄的一年中每一天的冬外套銷量就屬於時態數據。

張量 (Tensor)

TensorFlow 程序中的主要數據結構。張量是 N 維（其中 N 可能非常大）數據結構，最常見的是標量、向量或矩陣。張量的元素可以包含整數值、浮點值或字元串值。

張量處理單元 (TPU, Tensor Processing Unit)

一種 ASIC（應用專用集成電路），用於優化 TensorFlow 程序的性能。

張量等級 (Tensor rank)

請參閱等級。

張量形狀 (Tensor shape)

張量在各種維度中包含的元素數。例如，張量 [5, 10] 在一個維度中的形狀為 5，在另一個維度中的形狀為 10。

張量大小 (Tensor size)

張量包含的標量總數。例如，張量 [5, 10] 的大小為 50。

TensorBoard

一個信息中心，用於顯示在執行一個或多個 TensorFlow 程序期間保存的摘要信息。

TensorFlow

一個大型的分散式機器學習平台。該術語還指 TensorFlow 堆棧中的基本 API 層，該層支持對數據流圖進行一般計算。

雖然 TensorFlow 主要應用於機器學習領域，但也可用於需要使用數據流圖進行數值計算的非機器學習任務。

TensorFlow Playground

一款用於直觀呈現不同的超參數對模型（主要是神經網路）訓練的影響的程序。要試用 TensorFlow Playground，請前往 http://playground.tensorflow.org。

TensorFlow Serving

一個平台，用於將訓練過的模型部署到生產環境。

測試集 (test set)

數據集的子集，用於在模型經由驗證集的初步驗證之後測試模型。

與訓練集和驗證集相對。

tf.Example

一種標準的 proto buffer，旨在描述用於機器學習模型訓練或推斷的輸入數據。

時間序列分析 (time series analysis)

機器學習和統計學的一個子領域，旨在分析時態數據。很多類型的機器學習問題都需要時間序列分析，其中包括分類、聚類、預測和異常檢測。例如，您可以利用時間序列分析根據歷史銷量數據預測未來每月的冬外套銷量。

訓練 (training)

確定構成模型的理想參數的過程。

訓練集 (training set)

數據集的子集，用於訓練模型。

與驗證集和測試集相對。

轉移學習 (transfer learning)

將信息從一個機器學習任務轉移到另一個機器學習任務。例如，在多任務學習中，一個模型可以完成多項任務，例如針對不同任務具有不同輸出節點的深度模型。轉移學習可能涉及將知識從較簡單任務的解決方案轉移到較複雜的任務，或者將知識從數據較多的任務轉移到數據較少的任務。

大多數機器學習系統都只能完成一項任務。轉移學習是邁向人工智慧的一小步；在人工智慧中，單個程序可以完成多項任務。

真負例 (TN, true negative)

被模型正確地預測為負類別的樣本。例如，模型推斷出某封電子郵件不是垃圾郵件，而該電子郵件確實不是垃圾郵件。

真正例 (TP, true positive)

被模型正確地預測為正類別的樣本。例如，模型推斷出某封電子郵件是垃圾郵件，而該電子郵件確實是垃圾郵件。

真正例率（true positive rate, 簡稱 TP 率）

是召回率的同義詞，即：

真正例率是 ROC 曲線的 y 軸。

無標籤樣本 (unlabeled example)

包含特徵但沒有標籤的樣本。無標籤樣本是用於進行推斷的輸入內容。在半監督式和非監督式學習中，無標籤樣本在訓練期間被使用。

非監督式機器學習 (unsupervised machine learning)

訓練模型，以找出數據集（通常是無標籤數據集）中的模式。

非監督式機器學習最常見的用途是將數據分為不同的聚類，使相似的樣本位於同一組中。例如，非監督式機器學習演算法可以根據音樂的各種屬性將歌曲分為不同的聚類。所得聚類可以作為其他機器學習演算法（例如音樂推薦服務）的輸入。在很難獲取真標籤的領域，聚類可能會非常有用。例如，在反濫用和反欺詐等領域，聚類有助於人們更好地了解相關數據。

非監督式機器學習的另一個例子是主成分分析 (PCA)。例如，通過對包含數百萬購物車中物品的數據集進行主成分分析，可能會發現有檸檬的購物車中往往也有抗酸葯。

請與監督式機器學習進行比較。

驗證集 (validation set)

數據集的一個子集，從訓練集分離而來，用於調整超參數。

與訓練集和測試集相對。

權重 (weight)

線性模型中特徵的係數，或深度網路中的邊。訓練線性模型的目標是確定每個特徵的理想權重。如果權重為 0，則相應的特徵對模型來說沒有任何貢獻。

寬度模型 (wide model)

一種線性模型，通常有很多稀疏輸入特徵。我們之所以稱之為「寬度模型」，是因為這是一種特殊類型的神經網路，其大量輸入均直接與輸出節點相連。與深度模型相比，寬度模型通常更易於調試和檢查。雖然寬度模型無法通過隱藏層來表示非線性關係，但可以利用特徵組合、分桶等轉換以不同的方式為非線性關係建模。

與深度模型相對。

（完）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！