當前位置:
首頁 > 科技 > 2018熱點總結:BERT最熱,GANs最活躍,每20分鐘就有一篇論文……

2018熱點總結:BERT最熱,GANs最活躍,每20分鐘就有一篇論文……

作者 | Ross Taylor

譯者 | linstancy

整理 | Jane

出品 | AI科技大本營

【導讀】本文的作者 Ross Taylor 和 Robert Stojnic 在今年一起啟動了一個名為「Paper with Code」的項目,將 AI 領域的一些研究論文和論文開源代碼結合展示,方便大家學習與研究。在推進這個項目的同時,通過分析網站的數據他們也有一些意外和有趣的收穫,用更綜合、全面的視野總結了下半年的發展現狀與熱點,哪些正在成為流行趨勢、哪些被廣泛使用。

在這篇文章中,作者為大家總結了 2018 年下半年機器學習領域被密切關注的成果,快來看看,這些你是不是都知道呢?

最流行的模型

BERT, vid2vid 和 graph_nets

10月,Google AI 團隊提出了一種深度雙向 Transformer 模型 (BERT),並發表了相關的論文。該模型在 11 個NLP 任務上取得了目前為止最佳的性能,Stanford Question Answering (SQuAD) 數據集也引起了學術界的強烈關注。隨後,Google AI 進一步開源了項目代碼,並在當月獲得了最多 Stars 數量,可見其熱門程度。

論文鏈接:https://arxiv.org/abs/1810.04805

GitHub 鏈接:https://github.com/google-research/bert

Nvidia 的 video-to-video synthesis 研究同樣是下半年一大熱點。該研究提出了一種新穎的生成模型 (GAN) 並在視頻合成任務中取得驚人的效果。眾所周知,GAN 是過去幾年裡最受歡迎的深度學習模型之一,該研究團隊利用一種新穎的順序生成器架構,以及一些前景和背景先驗 (foreground-and-background priors) 等設計特徵,解決了當前視頻合成研究中時間不連貫的問題,進而提高了最終的性能。同樣地,該項目代碼也被 Nvidia 團隊開源,並成為今年下半年第二大最受歡迎的項目。

論文鏈接:https://arxiv.org/abs/1808.06601

GitHub 鏈接:https://github.com/NVIDIA/vid2vid

同樣值得關注的是,Google DeepMind 團隊關於圖網路 (graph_nets) 的最新研究。該研究得到廣泛關注的原因是,因為它為解決結構化數據提供了一種新的方向。該開源項目是 2018 下半年排名第三位的受歡迎項目。

論文鏈接:https://arxiv.org/abs/1806.01261v3

GitHub 鏈接:https://github.com/deepmind/graph_nets

最受歡迎的項目

DeOldify、BERT 和 Fast R-CNNs

下面來介紹下半年最受歡迎的三個開源項目。

首先是 DeOldify。這是一項使用生成對抗網路 (GAN) 來修復黑白舊照片並為其重新上色的研究,在深度學習領域引發了極大的興趣和關注。該項目的作者是 Jason Antic,他借鑒了幾種 GAN 模型的實現,包括 self-attention GANs (SA-GANs)、progressively growing GANs (PG-GANs),來構建自己的模型,並採用兩種時間跨度的原則,最終得到了有意思的結果。

GitHub 鏈接:

https://github.com/jantic/DeOldify

其次是 BERT 的 pytorch 實現,作者是 Junseong Kim。該項目的代碼基於 The Annotated Transformer,代碼風格簡單易懂。

GitHub 鏈接:

https://github.com/codertimo/BERT-pytorch

最後一個項目是 Mask R-CNN 的 Keras/TensorFlow 實現,作者 Waleed Abdulla,這是今年下半年第三個熱門 GitHub 項目。在結構上,Mask R-CNN 基於特徵金字塔網路 (FPN) 和 ResNet101 為模型骨幹,它可用於許多諸如 3D 建築物重建,自動駕駛中的目標檢測,檢測地圖中的建築物類型等應用。

GitHub 鏈接:

https://github.com/matterport/Mask_RCNN

最活躍的領域

NLP 和 GANs

通過查看 GitHub 上 Top50 的開源實現,我們會發現當前最熱門、最活躍的研究領域是自然語言處理 (NLP) 和生成對抗模型 (GANs)。在 GitHub 上,GANs 領域最受歡迎的開源項目有 vid2vid,DeOldify,CycleGAN 以及 faceswaps,而最熱門的 NLP 開源項目包括 BERT,HanLP,jieba,AllenNLP 以及 fastText。

每7篇新論文中,只有一篇論文附有代碼實現

希望研究者在發表論文的同時可以開源自己的代碼實現。在過去 5 年的時間裡,我們處理了60000 多篇機器學習領域的論文,在這些論文中,只有 12% 的論文開源了它們的代碼,而過去 6 個月新發表的論文中,大約只有 15% (即每7篇新論文中只有1篇)附有代碼實現。這些數字都告訴我們還有更多的工作要做,但是一切也正朝著正確的方向發展!

每 20 分鐘就會出現一篇機器學習論文

從 7 月到現在,機器學習領域論文發表數量的增長率一直維持在每月 3.5% 左右,每年的增長率達到了 50%。這意味著,每月大約有 2200 篇新論文發表,按照這個趨勢,預計明年將有近 30000 篇新論文發表。

為了更好描述這是怎樣的一個趨勢,我們繪製了曲線圖與摩爾定律的趨勢圖進行比較。

最熱門的兩大深度學習框架

Tensorflow 和 PyTorch

以往每年大部分論文的代碼都是基於 Tensorflow 框架實現的,但是,今年 PyTorch 的火熱程度無法讓人忽視,PyTorch 社區的活躍度非常高。其他的框架,諸如 MXNet,Torch 和 Caffe2 在整個深度學習社區的活躍度和使用率相對就有些低了。 Tensorflow 和 PyTorch 這兩大框架都發生了很大的變化,TensorFlow 正朝著 eager execution 的方向發展,並集成了新的 Keras API,而 PyTorch 的改進旨在使用者能夠更輕鬆地構建自己的深度學習模型。

展望

整個領域都開始強調論文的可復現性,雖然目前的數字顯示,並不是都能做到,甚至我們還有一段路要走,但也正是如此,幫助大家明確了今後的工作的要求與方向。也希望出了研究人員外,有更多的人加入到開源社區中來。

此外,除了 Google 和 Facebook 這樣的大型巨頭公司外,獨立的 ML 社區 (indie ML community) 也將有助於推動論文復現、代碼開源等工作。如果,研究團隊和開發社區能更加緊密的聯繫與合作,相信會產生更多有助於實際應用的機器學習工具,進而讓整個領域更加發揮更大的潛力,全速前進。

https://medium.com/atlas-ml/state-of-deep-learning-h2-2018-review-cc3e490f1679

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

開源項目哪家強?Github年終各大排行榜超級盤點

TAG:AI科技大本營 |