在彎曲空間執行數據分類:基於向量場的新型神經網路架構
最近,向量場被用於分析生成對抗網路(GAN)優化問題,並在對 GAN 局限性的洞察和理解,以及擴展方法上取得了相當不錯的結果。本論文提出了一種新的架構,將向量場作為激活函數而獲得強大的非線性屬性。以二值交叉熵作為損失函數,作者通過隨機梯度下降方法優化向量場,並在小數據集上取得了不錯的效果。
通過將向量場的概念應用到神經網路,可以在其中發現大量已建立的數學和物理概念、抽象和可視化分析方法。例如,本研究利用了歐拉的求解常微分方程的方法 [11] 實現將數據點作為粒子隨向量場流動的過程。
本文利用三個二維非線性可分數據集完成計算實驗,並使用了由簡單高斯核函數生成的向量場。在不同的初始化超參數下,損失函數一致地隨 epoch 的增加而減少。此外,作者也進一步分析了實驗結果。
論文:Vector Field Based Neural Networks
論文地址:https://arxiv.org/abs/1802.08235
本文提出了一種新的神經網路架構,它結合向量場中豐富的數學和物理思想,並將向量場作為隱藏層對數據進行非線性變換。其中,數據點被當成粒子,遵循向量場定義的方向而流動,直觀地表徵了分類過程中數據點的變換。該架構將數據點跟隨向量場的流線從初始分布移向新的分布,其最終目標是將不同類別的數據點分離。本文通過梯度下降學習該向量場,解決了優化問題。
2 向量場神經網路
N 維空間中的向量場是一個平滑函數 K:R^n → R^n,對應的常微分方程(ODE):
其中 X ∈ R^n,ODE 的解曲線 X(t) 被稱為向量場 K 的流線。給定在時間 t_0 上位置為 X(t_0) = X_0 的粒子,其物理解釋是每一個向量 K(X) 表示作用於給定空間位置中粒子的速度,流線表示粒子沿著路徑 X(t) 傳播時所完成的位移。在時間 t_N > t_0 時,粒子將處於位置 X(t_N)。
給定由一些參數θ定義的向量場族 K(X, θ),作者提出了一種在向量場族中搜索最佳向量場以變換輸入空間中所有點 X_0 的方法。此外,在變換空間中的點 X(t_N) 間,不同類別的點可以線性分離。直觀上,向量場表徵了使得數據線性可分的變換。
作者使用了歐拉的方法 [11] 以利用 X_N 逼近 ODE 的解 X(t_N),其中可離散化為 X_i ≈ X(t_0 + ih),K(X, θ) 可作為我們迭代更新的向量場:
其中 h 是步長,N 是迭代數,因此 t_N = t_0 + Nh 是超參數,θ 表示向量場的參數。對於歐拉方法,當 h → 0,K(θ, X) 的流線可以精確計算。
下圖 1 展示了由向量場層級架構變換的輸入數據,它還提出了旨在線性分離數據的最優化向量場。注意架構的最後一層為線性分離器,它可以通過 Logistic 函數實現。
圖 1:從左向右,第一行展示了輸入數據、神經網路架構和由向量場層變換後的數據點分布。第二行展示了向量場和空間扭曲。
4 結果和討論
本文使用了兩個 scikit-learn 機器學習數據集 [12](moons 和 circle)和一個正弦數據集(由作者創建)。
圖 2:sin、moons 和 circle 數據集。
圖 3:損失函數 vs. epoch 的曲線圖。circle 數據集,其中θ分別等於 0.03、0.3、3.0。
在圖 4 中,可以看到初始的邊界層在變換後的空間中轉換成了一個超平面。雖然該演算法通過彎曲空間和將圓的中心提取到外部而獲得了很好的分類結果,它還生成了初始空間不同點的重疊。
圖 4:初始空間、向量場和變換後的空間。
一種緩解出現變換空間的數據點重疊的方法是利用正則化,正則化將作為阻尼器,將初始空間中的粒子移動平滑化,以防止初始空間的不同點在變換後的空間中重疊。
圖 5:sin 數據集的正則化(5000 個 epoch、η = 3.0、λ = 0.0005)。
※別說只看到了中國來客,CES仍在預言2018年AI加持下的科技圈走勢
※港中文-商湯聯合論文:自監督語義分割的混合與匹配調節
TAG:機器之心 |