當前位置:
首頁 > 知識 > 關於深度學習你必須知道的幾個信息理論概念

關於深度學習你必須知道的幾個信息理論概念

原標題 |Must know Information Theory concepts in Deep Learning (AI)

作者 |Abhishek Parbhakar

譯者 | 敬愛的勇哥(演算法工程師)

資訊理論是一個重要的領域,它對深度學習和人工智慧作出了重大貢獻,但很多人對它卻並不了解。資訊理論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。人工智慧中的很多概念來自資訊理論或相關領域:

常用的交叉熵損失函數

根據最大信息增益構建決策樹

廣泛應用於NLP和語音領域的維特比演算法

廣泛用於機器翻譯RNN和各種其他類型模型的編碼器-解碼器概念

資訊理論簡史

在20世紀初期,科學家和工程師們努力解決這樣的問題:「如何量化信息?有沒有一種分析方法或數學方法可以告訴我們信息的內容?」

例如,考慮以下兩句話:

布魯諾是一條狗。

布魯諾是一條大棕狗。

第二句話給了我們更多的信息,因為它還告訴布魯諾除了是「狗」之外還是「大的」和「棕色的」。我們如何量化兩個句子之間的差異?我們能否有一個數學測量方法告訴我們第二句話與第一句話相比多了多少信息?

科學家們一直在努力解決這些問題。語義,域和數據形式只會增加問題的複雜性。數學家和工程師克勞德·香農提出了「熵」的概念,它永遠改變了我們的世界,這標誌著數字信息時代的開始。

克勞德·香農提出「數據的語義方面是無關緊要的」,數據的性質和含義在信息內容方面並不重要。相反,他根據概率分布和"不確定性"來量化信息。香農還引入了「bit」這個詞,這一革命性的想法不僅奠定了資訊理論的基礎,而且為人工智慧等領域的進步開闢了新的途徑。

下面將討論深度學習和數據科學中四種流行的,廣泛使用的和必須已知的資訊理論概念:

也可以稱為信息熵或香農熵。

熵給出了實驗中不確定性的度量。讓我們考慮兩個實驗:

拋出一枚無偏硬幣(P(H)= 0.5)並觀察它的輸出,假設H

拋出一枚有偏硬幣(P(H)= 0.99)並觀察其輸出,假設H

如果我們比較兩個實驗,與實驗1相比,實驗2更容易預測結果。因此,我們可以說實驗1本質上比實驗2更不確定或不可預測。實驗中的這種不確定性是使用熵度量的。

因此,如果實驗中存在更多固有的不確定性,那麼它的熵更大。或者說實驗越不可預測熵越大。實驗的概率分布用於計算熵。

一個完全可預測的確定性實驗,即投擲P(H)= 1的硬幣的熵為零。一個完全隨機的實驗,比如滾動無偏骰子,是最不可預測的,具有最大的不確定性,在這些實驗中熵最大。

拋擲一枚無偏硬幣的實驗比拋擲有偏硬幣具有更多的熵

另一種觀察熵的方法是我們觀察隨機實驗結果時獲得的平均信息。將實驗結果獲得的信息定義為該結果發生概率的函數。結果越罕見,從觀察中獲得的信息就越多。

例如,在確定性實驗中,我們總是知道結果,因此通過觀察結果沒有獲得新信息,因此熵為零。

數學定義

對於離散隨機變數X,可能的結果(狀態)x_1,...,x_n,熵(以位為單位)定義為:

其中p(x_i)是X的第i個結果的概率。

應用

熵用於自動決策樹構造。在樹構建的每個步驟中,使用熵標準來完成特徵選擇。

基於最大熵原理選擇模型,從對比的模型中選出熵最大的模型為最佳模型。

交叉熵

交叉熵用於比較兩個概率分布。它告訴我們兩個分布有多相似。

數學定義

在相同的結果集上定義的兩個概率分布p和q之間的交叉熵由下式給出:

應用

基於卷積神經網路的分類器通常使用softmax層作為最後一層,並使用交叉熵損失函數進行訓練

交叉熵損失函數廣泛用於邏輯回歸等分類模型,隨著預測偏離真實輸出,交叉熵損失函數會增大。

在諸如卷積神經網路的深度學習架構中,最終輸出的softmax層經常使用交叉熵作為損失函數。

交互信息

交互信息是兩種概率分布或隨機變數之間相互依賴性的度量。它告訴我們另一個變數有多少關於該變數的信息。

交互信息獲取隨機變數之間的依賴性,比一般的相關係數更具廣義性,後者只表現線性關係。

數學定義

兩個離散隨機變數X和Y的交互信息定義為:

其中p(x,y)是X和Y的聯合概率分布,p(x)和p(y)分別是X和Y的邊緣概率分布。

應用

特徵選擇:使用交互信息,而不是使用相關性。相關性僅表現線性依賴性而忽略非線性依賴性,但交互信息不會。零的交互獨立性保證隨機變數是獨立的,但零相關不是。

在貝葉斯網路中,交互信息用於學習隨機變數之間的關係結構,並定義這些關係的強度。

Kullback Leibler(KL)散度

也稱為相對熵。

KL散度是另一種表示兩個概率分布之間相似性的方法。它衡量一個分布與另一個分布的差異。

假設我們有一些數據,它的真實分布是P。但是我們不知道P,所以我們選擇一個新的分布Q來近似這個數據。由於Q只是一個近似值,它無法像P那樣準確地逼近數據,會造成一些信息的丟失。這個信息損失由KL散度給出。

P和Q之間的KL散度告訴我們,當我們試圖用P和Q來近似數據時,我們損失了多少信息。

數學定義

一個概率分布Q與另一個概率分布P的KL散度定義為:

應用

KL散度通常用於無監督機器學習技術中的變分自編碼器。

資訊理論最初是由數學家和電氣工程師克勞德·香農,在1948年的開創性論文「通信的數學理論」中提出的。

注意:隨機變數和AI,機器學習,深度學習,數據科學等專業術語已被廣泛使用,但在不同的領域中會有不同的物理含義。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

通過基於情感方面的分析來理解用戶生成的內容
使用以 Tensorflow 為後端的 Keras 構建生成對抗網路的代碼示例

TAG:AI研習社 |