當前位置:
首頁 > 最新 > 吳恩達deeplearning.ai術語小字典速查!

吳恩達deeplearning.ai術語小字典速查!

有沒有想過回想Adam、ReLU或YOLO的含義?然後仔細去查看每一個你掌握的深度學習所需的術語?

在Coursera 上深度學習的世界中生存意味著你需要理解眾多的技術術語。你不確定AdaGrad,Dropout或Xavier初始化是什麼意思?使用本指南作為參考,可以查看它。

GIF

本「詞典」旨在簡要解釋吳恩達的deeplearning.ai中Coursera Deep Learning中專業的重要術語。它包含對術語的簡短解釋,並附有後續文章、圖像和原始論文的鏈接。這篇文章對深度學習初學者和從業者同樣有用。

讓我們打開深度學習的百科全書。

激活函數——用於創建輸入的非線性變轉換。輸入乘以權重,並添加到偏差項。流行的激活功能包括ReLU、tanh或sigmoid。

來源:https://bit.ly/2GBeocg

Adam優化——可以用來代替隨機梯度下降優化方法來迭代調整網路權重。根據發明人的說法,Adam在計算上是高效的,對於大數據集運行良好,並且只需要很少的超參數調整。 Adam使用自適應學習率α,而不是預定義和固定的學習率。 Adam目前是深度學習模型中的默認優化演算法。

自適應梯度演算法——AdaGrad是一種梯度下降優化演算法,為每個參數提供可調整的學習速率。 AdaGrad以較小的步驟調整頻繁更新的參數上的參數,而不是更新頻率較低的參數。因此,它非常適用於非常稀疏的數據集,例如以適應自然語言處理任務中的詞嵌入。論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

平均池化——平均卷積運算的結果。它通常用於縮小輸入的大小。平均彙集主要用於較舊的卷積神經網路架構,而最近的架構則支持最大彙集。

AlexNet——有八層CNN架構。這是一個比LeNet更廣泛的網路架構,需要更長時間的訓練。 AlexNet贏得了2012年ImageNet圖像分類挑戰。論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

來源:https://goo.gl/BVXbhL

反向傳播——用於調整網路權重以減少神經網路損失函數的一般框架。該演算法通過網路向後傳播,並通過每個激活函數的漸變下降形式調整權重。

GIF

反向傳播通過網路返回並調整權重

批量梯度下降——常規梯度下降優化演算法。為整個訓練集執行參數更新。該演算法需要在完成參數更新步驟之前計算整個訓練集的梯度。因此,批量梯度對於大型訓練集來說可能非常緩慢。

批標準化——將神經網路層中的值標準化為介於0和1之間的值。這有助於更快地訓練神經網路。

偏差——當模型在訓練集上沒有達到高精度時發生。它也被稱為欠擬合。當模型具有較高的偏差時,它在測試集中通常不會產生高精度。

來源:https://goo.gl/htKsQS

分類——當目標變數屬於不同的類時,不是連續變數。圖像分類、欺詐檢測或自然語言處理是深度學習分類任務的實例。

卷積——將輸入與濾波器相乘的數學運算。卷積是卷積神經網路的基礎,它在識別圖像中的邊緣和物體方面非常出色。

GIF

成本函數——定義計算出的輸出和它應該是什麼之間的差異。成本函數是深度神經網路學習的關鍵要素之一,因為它們構成參數更新的基礎。網路將其前向傳播的結果與地面實況進行比較,並相應地調整網路權重以最小化成本函數。均方根誤差是成本函數的一個簡單例子。

深度神經網路——具有許多隱藏層的神經網路,通常超過五個。沒有定義深度神經網路必須具有多少層。深度神經網路是機器學習演算法的一種強大形式,用於確定信用風險、駕駛自動駕駛汽車並檢測宇宙中的新行星。

函數的導數。

來源:https://goo.gl/HqKdeg

微分——微分是特定點上函數的斜率。計算衍生物以使梯度下降演算法將權重參數調整為局部最小值。

Dropout?——正則化技術,隨機消除深度神經網路中的節點及其連接。Dropout?減少了過度擬合,並加快了對深度神經網路的訓練。每個參數更新周期,不同的節點在訓練期間被丟棄。這迫使相鄰節點避免相互依賴,並自己計算出正確的表示。它還提高了某些分類任務的性能。論文地址:http://jmlr.org/papers/v15/srivastava14a.html。

來源:https://goo.gl/obY4L5

端到端學習——演算法能夠自行解決整個任務。額外的人工干預,如模型切換或新數據標籤,是沒有必要的。例如,端到端驅動意味著神經網路僅通過評估圖像即可知道如何調整轉向命令。

Epoch——每個示例都包含一個前向和後向遍歷訓練集。單個Epoch在迭代中涉及每個訓練示例。

前向傳播——深層神經網路中的前向傳播。輸入通過隱藏層的激活功能,直到最後產生結果。前向傳播也用於預測權重經過適當訓練後的輸入示例結果。

全連接層——全連接層使用其權重轉換輸入並將結果傳遞到下一層。該圖層可以訪問上一層的所有輸入或激活。

門控循環單元——門控循環單元(GRU)對給定輸入進行多重轉換。它主要用於自然語言處理任務。 GRU可以防止RNN中消失的梯度問題,類似於LSTM。與LSTM相反,GRU不使用存儲器單元,在達到相似的性能同時計算效率更高。論文地址:https://arxiv.org/abs/1406.1078

來源:https://goo.gl/dUPtdV

Human-Level Performance——一組人類專家的最佳表現。演算法可以超過人類的表現。用來比較和改進神經網路的有價值的指標。

超參數——確定您的神經網路的性能。超參數的例子有學習速率、梯度下降的迭代、隱藏層的數量或激活函數。不要與DNN學習的參數或權重混淆。

ImageNet——收集成千上萬的圖像及其注釋類。非常有用的圖像分類任務資源。

GIF

迭代——向前和向後傳遞一個神經網路的次數,每批都算一次。如果你的訓練集有5個批次,訓練2個epoch,那麼它將運行10次迭代。

梯度下降——幫助神經網路決定如何調整參數以最小化成本函數。反覆調整參數直到找到全局最小值。這篇文章包含了不同梯度下降優化方法的全面概述。

來源:https://bit.ly/2JnOeLR

圖層——一組用於轉換輸入的激活函數。神經網路使用多個隱藏層來創建輸出。您通常會區分輸入層,隱藏層和輸出層。

學習速率衰減——一種調整訓練期間學習速率的概念。允許靈活的學習速率調整。在深度學習中,學習速率通常隨著網路訓練時間的延長而衰減。

最大池化——僅選擇特定輸入區域的最大值。它通常用於卷積神經網路來減小輸入的大小。

時間遞歸神經網路——一種特殊形式的RNN,能夠學習輸入的上下文。適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。

LSTM單元的輸入和輸出。來源:https://bit.ly/2GlKyMF

小批量梯度下降——在訓練數據的較小子集上運行梯度下降的優化演算法。該方法允許並行化,因為不同的工作人員分別遍歷不同的小批量。對於每個小批量,計算成本並更新小批量的權重。它是批量和隨機梯度下降的有效組合。

來源:https://bit.ly/2Iz7uob

神經網路——一種轉換輸入的機器學習模型。一個普通的神經網路具有輸入、隱藏和輸出層。神經網路已成為尋找數據複雜模式的首選工具。

非極大值抑制——演算法用作YOLO的一部分。它有助於通過消除識別對象的低置信度的重疊邊界框來檢測對象的正確邊界框。論文地址:https://arxiv.org/abs/1705.02950

來源:HTTPS://bit.ly/2H303sF

遞歸神經網路——RNN允許神經網路理解語音、文本或音樂中的上下文。 RNN允許信息通過網路循環,從而在早期層和後一層之間保持輸入的重要特徵。

來源:https://goo.gl/nr7Hf8

ReLU——整流線性單元,是一個簡單的線性變換單元,其中如果輸入小於零,輸出為零,否則輸出等於輸入。 ReLU是激活功能的選擇,因為它允許神經網路訓練速度更快,並防止信息丟失。

回歸分析——統計學習的形式,其中輸出變數是連續的而不是分類值。雖然分類將一個類分配給輸入變數,但回歸會分配一個具有無限數量可能值(通常是數字)的值。例如房價或客戶年齡的預測。

均方根傳播——RMSProp是隨機梯度下降優化方法的擴展。該演算法的特點是每個參數的學習率,但不是整個訓練集的學習率。 RMSProp根據先前迭代中參數變化的速度來調整學習速率。在這裡閱讀論文。

參數——在應用激活功能之前轉換輸入的DNN的權重。每個圖層都有自己的一組參數,通過反向傳播來調整參數以最小化損失函數。

神經網路的權重

Softmax - 邏輯回歸函數的擴展,用於計算輸入屬於每個現有類的概率。 Softmax通常用於DNN的最後一層。具有最高概率的類別被選為預測類別。它非常適合具有兩個以上輸出類的分類任務。

來源:https://bit.ly/2HdWZHL

隨機梯度下降(Stochastic Gradient Descent)——一種優化演算法,為每個訓練樣例執行參數更新。該演算法通常比分批梯度下降快得多,該分批梯度下降在計算整個訓練集的梯度後執行參數更新。

監督學習——深度學習的形式,其中每個輸入示例都有一個輸出標籤。標籤用於將DNN的輸出與地面實況值進行比較並最小化成本函數。其他形式的深度學習任務是半監督訓練和無監督訓練。

遷移學習——一種將一個神經網路中的參數用於不同任務而不重新訓練整個網路的技術。使用先前訓練過的網路的權重並移除輸出圖層。用您自己的softmax或邏輯層替換最後一層,然後再次訓練網路。因為較的通常檢測類似的東西,這對其他圖像分類任務很有用。

無監督學習——輸出類別未知的機器學習形式。 GAN或變分自動編碼器用於無監督深度學習任務。

驗證集——驗證集用於查找深度神經網路的最優超參數。通常,在驗證集上對DNN進行不同組合的超參數訓練。然後應用性能最好的一組超參數,對測試集進行最終預測。注意平衡驗證集,如果有大量數據可用,則訓練使用多達99%,驗證使用0.5%,測試組使用0.5%。

消失梯度——當訓練非常深的神經網路時就出現問題。在反向傳播中,權重根據其梯度或導數進行調整。在深度神經網路中,較早層的梯度可能變得如此微小,以致權重根本不會更新。 ReLU激活函數適合解決這個問題,因為它不像其他函數那樣壓縮輸入。論文地址:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.24.7321

方差——當DNN過度適應訓練數據時發生。 DNN無法區分雜訊和模式,並模擬訓練數據中的每個方差。具有高方差的模型通常不能準確推廣到新數據。

矢量——作為輸入傳遞到DNN的激活層的值的組合。

VGG-16——一種流行的CNN網路體系結構。它簡化了AlexNet的架構,共有16層。有許多預訓練的VGG模型可以通過遷移學習應用於新的使用案例。論文地址:https://arxiv.org/pdf/1409.1556.pdf

Xavier初始化——Xavier初始化指定第一個隱藏層的起始權重,以便輸入信號深入神經網路。它根據神經元和輸出的數量對權重進行縮放。這樣,它可以防止信號在網路中稍後變得太小或太大。

YOLO——是一種識別圖像中物體的演算法。卷積用於確定物體在圖像的一部分中的概率,然後使用非最大抑制和anchor boxe來正確定位對象。論文地址:https://arxiv.org/pdf/1612.08242v1.pdf

希望這本詞典能幫助你更深入地理解深度學習中使用的術語。使用Coursera深度學習時快速查找術語和概念時,請將本指南放在方便的位置。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI全球動態 的精彩文章:

如何使用Tensorflow對象檢測進行像素級分類?
經驗分享:我的Deeplearning.ai課程學習之旅!

TAG:AI全球動態 |