機器學習的「hello，world」

最新 05-21

承接上篇「信我，就一句話解釋神經網路」，接下來與大家分享機器學習世界裡的「hello,world」

背景:

MNIST是一個手寫數字的資料庫，該資料庫分為兩部分：手寫的圖片及其對應的標籤數字。在上一篇文章提到了，對於普通程序來說，很難定義「貓」。當然，圖片數字沒有瞄那麼困難。因為至少數字不會有不同的形態和種類。大體數字仍然要滿足一定的規律及形態。但是，由於是手寫的，書寫習慣及書寫位子不同，仍然給數字識別帶來困難。接下來我們將以機器學習的方法來識別該資料庫。

數據整理：

MNIST是一個簡單的手寫數字的資料庫，如下圖所示。同時MNIST也包含了數字標籤，告訴我們每張圖片對應的數字，5,0,4,1。那麼X就是每張圖片，y就是圖片對應的真實數字。

訓練樣本X:

MNIST資料庫包含了60000個手寫數字及其對應的標籤。單一手寫數字圖片是28*28像素，如下圖所示。

對於該圖片，我們的處理方式是將[28，28]的圖片拉平變成[784，1]的向量，換句話說此圖片有784個特徵值或者說是784維向量空間。

最終整個訓練樣本X就變成了[55000，784]的矩陣。

訓練樣本Y：

樣本資料庫的標籤是[5,0,4,1]。需要將其轉換為『One-hot Vector』，如下圖分別代表著5,0,4,1.此向量只有一個維度值為1，其他均為0.

例如對於數字5的向量是[0,0,0,0,0,1,0,0,0,0].

大家可能對於y為什麼要變成[0,0,0,0,0,0,0,1,0,0] 這種形式。我個人理解是：如果仍然使用（0~9）作為y值，那麼沒有辦法有效分配概率區間。比如[0,0,0,0,0,0,0,1,0,0] 這種形式只要計算每個元素的概率就行，各元素之間不會相互影響。但是對於（0~9）：如果y_預測算出來是0.5那麼怎麼劃分，如果算出來是-10000呢？所以原來的y會受本身的數字屬性影響。

神經網路結構：

神經網路輸出層：

我們面對的問題是，輸入一張圖片需要判斷對應的數字。該問題可以轉化為一個概率問題，輸入一張圖片後，需要能夠計算出對應到10個選項的概率（0~9）。比如，模型輸入一張圖片後，可能判斷80%是9, 5%是8，剩餘的數字都有一些非常小的概率。

Softmax就是處理該問題的模型。Softmax能夠計算每個選項的概率，並且匯總概率為100%；

例如：在訓練前，圖片數字7，對應的Y_實際與Y_預測

從概率上來說，Y_實際代表的是100%概率是7

從概率上來說，Y_預測代表的是每個數字的概率都是10%

Y_實際= [0,0,0,0,0,0,0,0,1,0,0]

Y_預測= [0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1]

強調下：在訓練前，輸出層輸出的數值並不重要，重要的是形式與Y_實際一致

神經網路輸入層：

神經網路輸入層是由輸入對象決定的。因為MNIST的圖片有784個像素，所以輸入層有784的神經元。