頂會見聞系列:NeurIPS 2018 論文精選
雷鋒網 AI 科技評論按:本篇屬於「頂會見聞系列」。作為一個研究人員們欣賞彼此論文、討論學術話題的嚴肅學術頂級會議,NIPS 今年頗為熱鬧,前有「11 分鐘售罄門票」事件,讓大家見識到了人工智慧和機器學習的火爆程度堪比 Taylor Swift 演唱會,後又改名 NeurIPS 引起紛紛熱議,並給大家帶來了一道「1NeurIPS 該怎麼發音」的難題。對於 NIPS 改名後的首場盛會 NeurIPS 2018,想必大家的期待都要遠遠超乎往年了。如果大家很遺憾地沒有奔赴現場一探究竟的話,那就來看看其他參會者的見聞總結和分享吧,說不定會有新的收穫呢?
作者 Félix 是 AI 與大數據解決方案公司 sicara.com 技術博客作者之一,這篇文章中,他首先也對 NeurIPS 2018 的火爆程度發表了自己的一些感慨,之後則給大家帶來了一份論文精選,特別挑選出了一些能夠全面概述人工智慧的不同領域的高質量論文,領域覆蓋神經網路、深度學習、非監督學習、視頻預測等各個細分領域,希望能讓大家稍微感受到一些 NeurIPS 的現場氛圍。雷鋒網 AI 科技評論全文編譯如下。
對於今年沒能參加 NeurIPS(前稱 NIPS)感到可惜?所以我就寫了這篇 2018 年版的論文選讀,現在分享給你。
NeurIPS(神經信息處理系統大會,前稱 NIPS)現在的熱度蓋過了 Beyoncé 演唱會,今年,這場最盛大的人工智慧會議,門票 11 分鐘就宣告售罄。此外,今年會議接受的論文數量也創下記錄(超過一千篇)。
在下面的論文選讀中,你會發現我希望給你傳遞一點 NeurIPS 的氛圍。我的目標是找到那些能夠全面概述人工智慧的不同領域的高質量論文,當然,這份選讀無法做到詳盡並且有些主觀。
《SING:從音符到樂器的神經生成器》
《SING: Symbol-to-Instrument Neural Generator》,Alexandre Défossez (FAIR, PSL, SIERRA), Neil Zeghidour (PSL, FAIR, LSCP), Nicolas Usunier (FAIR), Léon Bottou (FAIR), Francis Bach (DI-ENS, PSL, SIERRA)
論文下載地址:https://arxiv.org/abs/1810.09785
這篇論文提出了一種新的神經音頻合成器:從音符到樂器的神經生成器(SING)。這個模型可以從幾百個具有不同音高和因素的樂器中產生音樂。
SING 可以直接產生取樣為 16000 Hz 的 4 秒波形,並且具備輕量級架構。其網路的第一部分是 LSTM(長短期記憶網路),它採用所使用的樂器、音高和音速三者的獨熱碼級聯作為輸入,並在 265 個時間步長期間被使用。一個卷積網路會對級聯的輸出進行解碼並生成音頻波形。
這個網路使用了一種特殊的損失:波形和目標波形的對數頻譜圖(通過短時傅里葉變換獲得)之間的 1-範數。
SING 得出了非常好的結果(在這裡 https://research.fb.com/wp-content/themes/fb-research/research/sing-paper/收聽音頻樣本),目前為止,比參考網路 Wavenet 表現更好。這個網路僅專用於樂器,不過它最顯著的成果體現在處理時間上,它的速度比 Wavenet 快 2500 倍。
《基於幾何變換的深度異常檢測》
《Deep Anomaly Detection Using Geometric Transformations》,Izhak Golan, Ran El-Yaniv
論文下載地址:https://arxiv.org/abs/1805.10917
這篇來自以色列理工學院的論文,旨在將深度學習模型充分利用於異常檢測領域。
目前最新的技術是自動編碼器(它檢測嵌入或重構數據中的異常),該論文提議對數據進行一組幾何變換,然後將判別模型應用到變換後的實例上(分數低的圖像將被視為異常)。對分類器進行訓練來區分變換後的圖像,從而使其學習顯著的幾何特徵,其中的一些特徵可能區分異常數據。就性能而言,這種方法對度量帶來的改進是空前的:與當前在 CatsVsDogs 上表現最好的演算法相比,表現最好的基線 的 AUC 提高了 67%。
《GLoMo:非監督學習關係圖表作為可轉移的表示》
《GLoMo: Unsupervisedly Learned Relational Graphs as Transferable Representations》,Zhilin Yang, Jake Zhao, Bhuwan Dhingra, Kaiming He, William W. Cohen, Ruslan Salakhutdinov, Yann LeCun
論文下載地址:https://arxiv.org/abs/1806.05662
本文提出了一種遷移學習的新方法。這種方法並沒有遷移嵌入之類的一元特徵,而為傳輸隱含關係圖帶來了可能性,這些圖包含隨基本嵌入消失的數據單元(像素、詞…)之間的關聯信息。
例如,對於一個問答問題,使用圖生成器訓練答案預測器,從問題輸入預測答案。這個網路試圖生成一個被注入到答案預測器的隱藏層中的好關聯矩陣(這個矩陣包含關聯信息但不包含輸入的值)。答案預測器和圖生成器同時進行訓練。
一旦經過訓練,該圖形生成器就可以與執行不同任務(例如情緒分析)的模型一起使用,從而提高它們的性能。這種新方法提高了問答、情感分析、圖像分類等問題的性能。
《監督無監督的學習》
《Supervising Unsupervised Learning》,Vikas K. Garg, Adam Kalai
論文下載地址:https://arxiv.org/abs/1709.05262
無監督學習的一個主要問題是沒有直接評估演算法性能的方法。這使得選擇某一種演算法來調整超參數或評估性能,成為一件非常難的事。
這篇論文嘗試使用元無監督學習(MUL)來解決這個問題,元無監督學習是一個經訓練後可以基於數據集的特性決定使用哪個無監督模型的分類器。為此,就需要一組標記好的數據集。
例如,假設給定了一個問題,而我們沒有任何有標記的數據,然後要在幾種無監督的分類演算法中挑選出一個,之後我們就找來許多有標籤的數據集,把每一個演算法都在它們上面運行,再算出分類成績。然後,我們組合使用數據集特徵(維度,特徵值等)和分類器輸出上的無監督度量(在集群內擴展等),訓練出一個模型來預測最佳演算法。該模型可用於為要解決的目標數據集選擇演算法。
這種方法似乎優於完全無監督的方法,即便在標記數據集與我們正在研究的數據集沒有緊密關聯的情況下,結果也是這樣。
《Banach Wasserstein 生成式對抗網路》
《Banach Wasserstein GAN》,Jonas Adler, Sebastian Lunz
論文下載地址:https://arxiv.org/abs/1806.06621
這篇論文介紹了 Banach Wasserstein 生成式對抗網路(BWGANs),它是對本身就改進自 GANs 的 Wasserstein GANs(WGANs)的擴展(這裡 https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Fmedium.freecodecamp.org%2Fan-intuitive-introduction-to-generative-adversarial-networks-gans-7a2264a81394 有對 GAN 不錯的介紹)。
對於基本的 GAN,假設判別器經過了完美的訓練,生成的網路實際上最小化了生成圖像分布和真實分布間的 Jenson-Shannon 距離(JSD,Kullback–Leibler 散度的對稱形式)。但是 JSD 距離不適用於測量圖像分布間的距離。
WGANs 則對損失進行了修改,從而最小化 Wasserstein 距離而不是 JSD 距離。為此,通過給損失函數添加一個梯度上的 L2 懲罰項,給網路增加了一個溫和的 Lipschitz 約束。Wasserstein 距離的一個主要優點是,它可以應用於圖像空間上的任意範數。
然而,由於損失上的懲罰項,WGAN 要求必須使用 L2 範數,因此失去了使用更適用於圖像的範數的能力,例如,Sobolev 範數,它不僅強調像素,而且強調邊緣。
本論文提出對懲罰項進行泛化,從而使得範數的選擇不再僅限於 L2 範數。
作者們使用 W=[-1/2,2] 的 Sobolev 範數,它在 CIFAR-10 數據集上的表現超越了當前最好的結果。
這是一篇非常數學化的文章:它不僅包含詳盡的證明(不僅僅是證明的概述),還回顧了諸如 Banach 空間和 Sobleev 空間此類的基本概念。
《學習分解和解耦視頻預測中的表示》
《Learning to Decompose and Disentangle Representations for Video Prediction》,Jun-Ting Hsieh, Bingbin Liu, De-An Huang, Li Fei-Fei, Juan Carlos Niebles
論文下載地址:https://arxiv.org/abs/1806.04166
視頻預測是從先前的 T 幀預測圖像接下來的 k 幀的任務。要解決視頻預測問題,似乎就意味著能夠理解世界是如何運作的。
更具體地說,理解一個物體的物理特性,比如繩子如何與金屬棒表現不同,在我們的日常生活中是很自然的一件事,但是它卻使視頻預測成為一項複雜的任務。
視頻具有高維度,並且是不規則的。這篇論文介紹了分解解耦的預測自動編碼器(DDPAE),它能找到對視頻中的目標進行描述的最輕便的方法。它假設每個視頻都由多個目標組成,其中的每一個都可以使用內容向量(目標本身的常量描述符)和姿態向量(被檢測到和預測的位置)來描述。
這個解決方案學習這樣的描述並解析它的所有元素,同時還對 VAE、RNN 和 seq2seq 進行了結合。它的結果看起來非常有前景,因為他們超越了運動 MNIST 數據集的基準。
《用原型樣式分析法進行藝術樣式的非監督學習》
《Unsupervised Learning of Artistic Styles with Archetypal Style Analysis》,Daan Wynen, Cordelia Schmid, Julien Mairal
論文下載地址:https://hal.inria.fr/hal-01802131/file/archetypal_style.pdf
本論文為無監督學習和深度學習可解釋性帶來了一個新階段。特別是,它用根樣式解釋和操作解決了樣式學習的問題(如果你對這個問題不熟悉,這裡 https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fartistic-style-transfer-b7566a216431有對樣式學習不錯的介紹)。
其主要想法是將輸入的圖像投影到低維原型空間,在這個空間里每個基本原型都是可解釋的。這樣的話就可以:以無監督的方式將一些特徵附加到圖像中(例如,添加關於來自原型解釋的紋理、樣式、年齡等標籤),同時操作每個樣式上的係數來影響樣式,並將樣式轉移到原始圖像。
此外,採用雙邊方式的單形優化來將編碼圖像投影到原型上:將圖像到其投影的距離最小化,同時強制讓原型成為圖像的線性組合。因而,這個原型易於解釋。
最終,用基本樣式元素描述任意圖像,然後再學習一種樣式詞典成為可能。這種樣式轉移最後可以由原型空間中的係數進行精確地管理。
via:《NeurIPS (prev. NIPS) Papers Selection:My favorite research articles from NeurIPS (previously NIPS) 2018》, Félix(https://blog.sicara.com/nips-neurips-papers-selection-28efd4d73189)雷鋒網 AI 科技評論編譯。
※沃爾沃自動駕駛卡車商業化第一彈:到礦山運石灰岩去
※搶三星首發!榮耀發布屏下攝像頭技術,屏幕不開孔
TAG:雷鋒網 |