成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

新聞 12-10

雷鋒網 AI 科技評論按：五年前，Yann LeCun 等人創建了 Facebook 人工智慧研究院 (Facebook AI Research，FAIR)，試圖通過開放的研究環境促進人工智慧的發展，進而造福所有人——他們努力的目的是為了理解智慧的本質，以便創造真正意義上的智能機器。從那時起，FAIR 便不斷發展壯大、做出成果，逐漸長成一個在多個國家均設有實驗室的國際性研究組織，當中包括矽谷門羅公園、紐約、巴黎、蒙特利爾、特拉維夫、西雅圖、匹茲堡和倫敦。在人工智慧漸漸成為 Facebook 業務核心的當下，FAIR 也隨之成為 Facebook 龐大人工智慧架構的一部分，從基礎研究到應用研究與技術開發，致力於人工智慧研發的方方面面。

FAIR 在對外合作上秉持著開放的態度，儘可能與社會保持緊密的聯動關係。他們的團隊經常對外發布前沿的研究成果，並且儘可能對外開源研究代碼、數據集和工具（如 PyTorch 、 fastText 、 FAISS 和 Detectron）。他們的這些努力成功推進了人工智慧研究的發展。以今年為例，來自 FAIR 的研究人員成功獲得了多個獎項的認同，其中就包括 ACL、EMNLP、CVPR 和 ECCV 的最佳論文獎，以及 ECCV 、 ICML 和 NeurIPS 的時間檢驗獎。他們深信，開放的工作環境可以讓 AI 領域獲得快速的發展。

要想製造出真正意義上的智能機器，無論從技術還是產品工程的角度來說，都是一項挑戰。因此，FAIR 有相當一部分的研究精力都集中於攻克一些基礎問題，比如推理、預測、計劃和無監督學習等。與此同時，要想在這些研究領域有所建樹，需要對生成模型、因果關係、高維隨機優化和博弈論等理論有更深入的理解。如果想讓人工智慧的潛力在未來最大化為我們所用，這些長期的研究探索是需要一直堅持下去的。在成立五周年之際，他們將從過去已完成的項目中挑選出了一些具有代表性的項目，通過它們向大家展示 FAIR 是如何成功達成使命，為人工智慧領域做出貢獻，進而對世界產生影響的。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

打開今日頭條，查看更多圖片

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

上圖時間軸展示了這 5 年以來 FAIR 較有代表性的項目

記憶網路

在 2014 年，FAIR 的研究人員發現了神經網路的一個本質缺陷——長期記憶。雖然大家都知道神經網路可以在數據集的訓練過程中學習，可一旦系統開始運行了，它們通常再也無法存儲新信息，用於解決日後的特定任務。因此，他們開發出了一種新的學習模型，以幫助機器能夠記住足量的交互行為，並根據對話中先前的陳述來回答一般的知識問題。他們一篇發表於 2014 年闡述了該模型的論文（https://arxiv.org/abs/1410.3916）中，試圖通過一個具備記憶能力的網路去回答和《指環王》系列故事情節相關的問題，而它的依據僅僅只有提供的一篇簡短摘要。結果顯示，該系統不但能夠學習到一些簡單的語言模式，甚至還能正確歸納出生詞的意思，例如在故事結尾中出現的「佛羅多身在夏爾」以及「魔戒在末日山上」。

FAIR 在接下來的兩年內繼續對這一方法進行改進，無論在研究範圍還是探索領域上都擴充了許多。他們開發出一款可以從序列中以無監督的方式進行訓練的增強式 RNN，它帶有一個支持 push、pop 的堆棧，也就是 StackRNN（https://research.fb.com/downloads/stack-rnn/）。在 bAbl 中（https://research.fb.com/downloads/babi/），團隊構建了基於問答任務的數據集，以評測機器在文本理解方面的表現。值得一提的是，bAbI 如今已是開源項目 ParlAI 的一部分，該項目包含了上千條的對話示例，涵蓋從餐館預訂到對電影陣容的回答，可以說是應有盡有。此外，他們還對內存網路架構進行了迭代，增強它們在實際應用程序中的實用性。迭代的內容包括了端到端內存網路（https://arxiv.org/abs/1503.08895）以及鍵值內存網路（https://arxiv.org/abs/1606.03126），前者可以讓網路在更少的監督下工作，後者則允許網路通過完全沒有監督的信息源 (如維基百科條目) 進行泛化後進行訓練。

自我監督學習與生成模型

如何通過自監督學習 (SSL) 對大量未標記的數據進行利用，進而擴大人工智慧的運用規模，向來是 FAIR 優先順序最高的工作之一。有了 SSL，機器可以通過輸入未標記的圖像、視頻或音頻來習得世界的抽象表徵。SSL 最典型的一個應用例子是，通過向一台機器展示視頻內容並進行訓練，使其可以預測接下來出現的畫面。一旦掌握了預測的能力，機器可以獲取關於世界如何運轉的知識，進而更好習得對世界的抽象表徵。SSL 讓機器可以像人類與動物的嬰兒一樣通過觀察來進行學習，由此積累大量關於真實世界的背景知識。人們都希望機器可以和這個世界達成一種「共識」。一個具備對世界萬物進行預測能力的模型，是構建能夠進行推理、預測其行為後果並在現實世界中付諸行動的人工智慧系統的關鍵。

2014 年，來自蒙特利爾大學 MILA 的一名朋友（Ian Goodfellow）提出了名為生成對抗網路 (GANs) 的新型無監督學習方法。當時 FAIR 的研究人員們立刻被這種自我監督學習方法的潛在應用價值所吸引。不過，儘管 GANs 讓人感覺這種方法很有前途，該方法卻只在一些非常簡單的問題上得到了證明。為此，FAIR 從 2015 年開始發表了一系列論文，試圖說服學界人士關於 GANs 確實發揮了作用。簡單來說，GANs 可以用來訓練機器在不確定的情況下進行預測，其背後依賴的是兩個相互對抗的神經網路。在典型的 GAN 結構中，生成器網路會從一堆隨機數 (可能還包含過去的視頻幀) 生成數據（如圖像或視頻幀），與此同時，鑒別器網路也會同步區分真實數據（真實的圖像與視頻幀）與生成器的「失誤」輸出。正是這種對抗性的網路運行邏輯有效優化了兩個網路，從而帶來更好的預測效果。

這些年，他們的論文基本覆蓋了 GANs 的幾種關鍵變體，其中包括專註於圖像生成的深度卷積生成對抗網路 (DCGANs，http://arxiv.org/abs/1511.06434) 和拉普拉斯對抗網路 (LAPGANs，http://papers.nips.cc/paper/5773-deep-generative-image-models-using-a-laplacian-pyramid-of-adversarial-networks)，以及專註於視頻預測行為的對抗梯度差損失預測器 (AGDLs，https://arxiv.org/abs/1511.05440)。這些論文的最重要貢獻是，向大家證明了 GANs 實際上可以「創造」出一些看起來很逼真的圖像，例如壓根就不存在的卧室、面孔或者狗。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

圖中展示了一系列由生成網路創建的時裝設計作品

從此以後，有越來越多的研究人員開始關注 FAIR 在 GANs 方面所做的工作，利用它們創建令人讚歎的高解析度圖像。然而 GANs 是出了名的難以調優以及難以收斂，為此 FAIR 努力探索更多可以讓 GANs 變得可靠的方法，其中一種方法是在理論上著重於理解對抗性的訓練。2017 年，他們提出了 Wasserstein GAN (WGAN，https://arxiv.org/abs/1701.07875) 方法，該方法通過改進鑒別器使其變得更加「平滑」和高效，由此增強生成器的預測效果。總的來說，WGAN 是第一個能夠保證收斂魯棒性，且被廣泛應用的 GAN。這也意味著有了 WGAN 後，可以在優化系統時免去平衡鑒別器和生成器輸出的工作，從而顯著提高網路在學習上的穩定性，尤其是在高解析度圖像的生成任務中。

自此，FAIR 的研究員們和 Facebook 工程師們將對抗訓練這一方法進行了大範圍應用，包括長時間視頻預測（http://openaccess.thecvf.com/content_ICCV_2017/papers/Luc_Predicting_Deeper_Into_ICCV_2017_paper.pdf）和時尚服裝創造（https://arxiv.org/abs/1804.00921）。但是生成式對抗網路（GAN）真正有趣的部分，是它們對於未來的意義。作為一項全新的技術（幾年前甚至還不存在），它為我們帶來了在數據稀缺的領域生成數據的新機會。未來的探索中，它可能成為構建能夠自主學習的機器的關鍵工具。

規模化的文本分類

文本理解不是單一任務，而是一個擴展的子任務矩陣，是把詞語、短語和整個語言數據集組織為機器能夠處理的格式。但是在大量工作進行之前，文本本身需要被分類。幾年前，詞向量（word2vec）等自然語言處理模型通過大量的、基於詞的訓練來對文本進行分類，同時，模型為訓練數據集中的每個單詞分配不同向量。對於 Facebook 來說，這種文本分類方法太慢，並且太依賴於完全監督的數據。他們需要最終實現的是對成百上千種語言進行文本分類，其中許多語言並不具備大規模數據集。該系統需要擴展到 Facebook 所有基於文本的功能和服務中，還需要兼顧 FAIR 的自然語言處理研究。

因此在 2016 年，FAIR 創建了 fastText（https://code.fb.com/ml-applications/expanded-fasttext-library-now-fits-on-smaller-memory-devices/），這是一個用於快速分類文本和學習詞表示的框架，它考慮了其所分類詞語的更大形態。在 2017 年發表的一篇論文（https://arxiv.org/pdf/1607.04606.pdf）中，FAIR 提出了一個模型，該模型將向量分配給「子詞單元」（例如，3 或 4 個字母組成的序列），而不是分配給整個單詞，從而讓系統為訓練數據中沒有出現過的單詞創建表示，最終的結果，該模型的分類可以擴展到數十億個詞語，並從新的、未經訓練的詞語中學習，同時其訓練速度也比典型的深層學習分類器快得多。在某些情況下，用 fastText 可以在幾秒內訓練完此前需要花費幾天時間才能完成訓練的模型。

後來的發展表明 FastText 對於基於人工智慧的語言理解的研究和應用是一項重要貢獻，並且它現在適用於 157 種語言。原論文在其他出版物上已被引用了上千次，而 fastText 仍然是詞嵌入系統最常用的基線之一。在 Facebook 以外，fastText 也已在各種各樣的應用程序中得到應用，從熟悉的應用場景，如消息回復推薦（suggesting message replies），到特別的應用場景，如一款叫做 The Great Outdoors 的「演算法劇場」產品，它使用 fastText 來幫助篩選大眾互聯網評論並將篩選結果安排為表演的腳本。該框架也被部署在 Facebook 上，用於對 19 種語言的文本進行分類，並與 DeepText 結合用於翻譯和自然語言理解。

前沿的翻譯研究

快速、準確、靈活的翻譯是幫助世界各地的人們進行交流的重要組成部分。因此，在 FAIR 成立的早期，他們就開始尋找一種比當時最先進的統計機器翻譯表現更好的新方法。他們花了三年的時間構建了一個基於 CNN 的，集速度、準確性和學習能力為一體的神經機器翻譯（NMT）架構。（Facebook 人工智慧研究院在 2017 年發表了一篇詳述其工作的論文 https://arxiv.org/abs/1705.03122。）在他們的實驗中，這種方法相比 RNN 的速度提高了 9 倍，同時還保持了當時最高的準確率。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

他們的多跳 CNN 不僅更易於在更有限的數據集上訓練，也能更好地理解拼寫錯誤或縮寫詞，比如正確地把「tmrw」作為「tomorrow」進行翻譯。總體而言，神經機器翻譯提高了平均 11 % 的準確率以及 2.5 倍的翻譯速度。除了改進自己的系統，他們還對 fairseq 的代碼和模型（https://github.com/facebookresearch/fairseq）進行了開源，它是針對基於 CNN 系統使用的序列到序列的建模工具包。

為了避免對大規模翻譯訓練數據集的需求（通常稱為語料庫），他們還在尋求其他新的機器翻譯方法，例如多語言嵌入，其可以實現跨多種語言的訓練。去年，他們發布了一個開源 Python 庫——MUSE，它為學習多語言嵌入提供了兩種不同方法：一種是使用發布版本中包含的 110 種雙語詞典的有監督的方法；另一種是允許在沒有平行語料兩種語言間構建新雙語詞典的更新的、無監督的方法。隨後，他們發表了一篇 EMNLP 獲獎論文（https://arxiv.org/abs/1804.07755），展示了針對完整句子翻譯的無監督訓練所取得的顯著進步。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

通過共享 fairseq 和 MUSE 這樣的研究和資源，FAIR 鼓勵其他人無論是用於研究目的還是生產應用，都能享受更快、更準確和更多功能的翻譯技術所帶來的好處。

讓每個人都進步的人工智慧工具

人工智慧的進步不僅取決於突破性的想法，還取決於擁有強大的平台和工具來驗證和實現它們。FAIR 率先建立起了這些系統，並與世界分享。在 2015 年，他們開源由 FAIR 開發的 Torch 深度學習模塊（https://code.fb.com/developer-tools/fair-open-sources-deep-learning-modules-for-torch/），以加速大型神經網路的訓練。在 2016 年，他們發布了 Torchnet（https://code.fb.com/core-data/lighting-the-way-to-deep-machine-learning/），使得深度學習社區能夠更容易地快速構建有效和可重複使用的學習系統。不久之後，他們發布了 Caffe2（https://caffe2.ai），它是用於移動計算的模塊化深層學習框架，如今正在全球 10 億多部手機上運行神經網路。接著，他們又聯合微軟和亞馬遜發布了 ONNX（https://onnx.ai），這是針對神經網路的一種通用表示，可以使其更易於根據需要在框架之間移動。

特別是，他們對 PyTorch（https://pytorch.org）的研究工作表明了 FAIR 致力於開發快速迭代、具有巨大影響力、開放的系統以及與 AI 社區建立合作。PyTorch 最初只是 Facebook 人工智慧研究院一小部分研究人員的小成果。他們選擇在 Torch 開放源代碼庫上構建一個深度學習框架，而不是全部重新構建，同時他們還集成了英特爾和英偉達的加速庫，來實現速度最大化。他們在 2017 年初發布了 PyTorch，在不到兩年時間的今天，它成為了 GitHub 上發展速度排第二的開源項目（https://octoverse.github.com/projects），以及全球 AI 開發人員所選用的框架。在 10 月份，AI 社區的數百名成員參加了第一屆 PyTorch 開發者大會，聆聽了來自加州理工大學、FAIR 、fast.ai、谷歌、微軟、英偉達、特斯拉以及其他許多企業和機構的發言。現在，PyTorch 1.0 的發布集成了 Caffe2 和 ONNX 的模塊化、面向生產的能力，並通過深度集成雲服務和技術供應商，提供了從原型研究到產品部署的無縫對接路徑。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

PyTorch 被集成到 Facebook 擁有億級用戶的產品中，它也被集成到了 FAIR 自己的研究項目上，如 fairseq(-py)（https://github.com/pytorch/fairseq），這個版本比之前版本的翻譯速度提高了 80%。強化學習圍棋機器人 ELF OpenGo、嵌入問答 EmbodiedQA 的研究（https://embodiedqa.org/）以及在數十億帶有標籤的公共圖像上訓練圖像識別網路的時候，都使用了 PyTorch。除了 Facebook，紐約大學教授 Narges Razavian 博士在 AllenNLP 項目和利用人工智慧改善早期疾病檢測的項目中也使用了 PyTorch。現在 Udacity 和 FAST.AI 正在幫助更多的人使用 PyTorch。

由於 PyTorch 使得模型從研究到生產更快、更容易，FAIR 在 Facebook AI 相似性搜索（FAISS）方面的工作也加速了大規模搜索研究方面的進展。FAISS 最初只是一個利用 GPU 來識別與用戶偏好相關的相似性的內部研究項目，但如今它能夠利用數十億規模的數據集，是現有的同類查詢庫中最快最大的一個。FAISS 已經為推薦引擎和人工智慧輔助系統開闢了可能性。FAIR 去年把它作為開源庫發布，現在 FAISS 已經被開發者社區廣泛採用，獲得了 5000 多個 GitHub star 並被集成到了 NVIDIA 的 GPU 加速的 scikit-learning 庫 cuML 中。

一種新的計算機視覺測試基準

試圖理解智力的本質是一項多感官式的研究，但在過去五年，FAIR 實際上只在計算機視覺方面進展較多。在 FAIR 誕生之前，Facebook 就有一支由人工智慧專家組成的小團隊，他們試圖更好地理解圖像中的人是如何被像素表示的，以便在正確的時間為人們展示正確的照片。到 2017 年，FAIR 的研究人員將最優秀的目標檢測和語義分割技術相結合，完成了 Mask R-CNN 論文，這篇論文也獲得了 CVPR2017 的最佳論文獎。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

正如這篇論文所說，「在不加修飾的情況下，Mask R-CNN 在每一項任務上的表現都勝過所有現有的單模項目，包括 COCO 2016 挑戰賽冠軍。」這項工作迅速在更多的人工智慧社區成為了計算機視覺研究的基礎。然後，該技術被集成到 FAIR 的開源 Detectron 系統中，為世界各地的研究人員提高了演算法的直觀易用性、速度和準確性。

這項基礎工作支撐著 Facebook 的大量現有系統，例如替代自動文本可以幫助視力受損者檢測文本和不良內容。這也是未來應用的基礎：跨平台的 AR 功能和 Portal 中的 Smart Camera 都植根於此。隨著研究的繼續進行，FAIR 的研究重點轉移到了視頻，DensePose 項目就可以幫助系統理解視頻內容以及照片。

成立 5 周年：一文覽盡 Facebook 人工智慧研究院歷年重要成果

上面的視頻演示了當人移動時，在人的頭頂上創建 3D 表面。

圖像理解：更快的訓練和更大的數據集

計算機視覺並不是 FAIR 尋求解決大規模挑戰的唯一領域。FAIR 與 Facebook 的應用機器學習（AML）團隊合作，解決訓練速度和訓練集大小的限制，以及缺乏監督數據集的問題。在今年早些時候發表的一篇論文中，AML 的團隊討論了他們如何在帶有哈希表的大型公共圖像集上訓練圖像識別網路，其中最大的包括 35 億張圖像和 17000 個哈希表。它的數量級比以往任何發表的作品都要多，並且結果是迄今為止業界發布的最好的結果：準確率為 85.4%。

通過 FAIR 對訓練速度的研究，這一突破成為可能——FAIR 能夠將 ImageNet 的訓練速度提高一個數量級。他們把訓練時間縮短到一個小時以下，演示了如何進行小規模的 SGD 訓練，這些訓練的數量級比之前認為的實際數量級大。用他們的話說：「為了得到這個結果，我們採用線性縮放規則將學習率調整為一個小批量的函數，並且開發新的預處理方案，這個方案解決了早期訓練中的最優化問題。」

隨著訓練速度的提高，我們能夠對較大數據集上的弱監督學習進行有針對性的研究。這兩個結果表明，FAIR 和 AML 之間是互相促進的。當解決人工智慧的科學得到實際研究和生產中應用的支持時，我們會看到最快速、最先進的結果。

FAIR 的未來

當 LeCun 等人創建 FAIR 時，他們的最終目標是理解智能並發現其基本原理，從而提高機器的智能性。到現在這一目標也沒有改變。現在 FAIR 的研究人員們正在繼續擴展他們的研究領域，諸如開發能夠通過自我監督學習獲得真實世界模型的機器，訓練機器進行推理，以及訓練它們進行規劃和構思複雜的行動等。這也是 FAIR 目前研究機器人、視覺推理和對話系統的原因之一。在這篇文章中他們已經描述了一些已有的具體成果，這些項目證明了他們取得了巨大的進步，但在讓機器更加智能從而幫助人們的過上更好生活這個方面還有很長的路要走。

雷鋒網 AI 科技評論雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※人工智慧正在如何改變世界：BBC總結AI的A到Z
※尹立博：Python 全局解釋器鎖與並發｜AI 研習社第 59 期猿桌會

TAG:雷鋒網 |