NeurIPS 2018｜如何用循環關係網路解決數獨類關係推理任務？

新聞 12-17

選自 arXiv，作者：Rasmus Berg Palm、Ulrich Paquet、Ole Winther，機器之心編譯，參與：李詩萌、王淑婷。

本文引入循環關係網路來解決步驟相互依賴的關係推理任務，舉個栗子，數獨任務。以往的傳統深度學習方法雖然也能解決，卻總是會出現一些問題。本文提出的 RNN 模型解決了 96.6% 的最難數獨，而且與其它方法相比結果最佳。

人類智能的核心組成部分是對目標及其相互作用進行抽象推理的能力 [Spelke 等人，1995，Spelke 和 Kinzler，2007]。舉個例子，假設要解數獨問題。數獨盤面中有 81 個格，按 9*9 的方式排列，要用數字 1～9 填滿這些格子，每個數字在每行、每列以及每一個 3*3 的非重疊格中都只能出現一次，有些數字已經給定為 1。要解數獨，就得用方法推理出盤面上的格子以及它們在許多步驟中的相互作用關係。有人試著將數字放進格子中，並觀察它會對其它格子產生怎樣的影響，迭代地解決這一問題。

將這種方式與傳統的深度學習方法（如多層感知器（MLP）或多層卷積神經網路（CNN））進行對比來解決問題。上述架構將整個數獨盤作為輸入，在一次正向傳遞過程中輸出了完整的解決方案，但在這個過程中它們忽視了目標之間存在的歸納偏置，以及它們是以一致的方式互相作用的。當面對需要推理基本關係的問題時，這些模型會出現問題也就不足為奇了 [Lake 等人，2016，Santoro 等人，2017]。

Santoro 等人的關係網路 [2017] 是用簡單模塊推理目標及其相互作用的重要第一步，但它的局限性在於只能進行單個關係運算，而在數據集上評估時最多需要三個推理步驟（令人驚訝的是，如文中所示，這一問題可通過單個關係推理步驟解決）。除了關係網路，在人工智慧和機器學習領域還有關於邏輯和推理方面的文獻，我們將在第 5 節中討論。

為了實現在多個步驟中有條理地推理目標及其相互作用的能力，本文引入了一個複合函數，循環關係網路。它是端到端可微分學習系統中多步關係推理的模塊化組件。它將歸納偏置編碼為：1）存在於這個世界的目標；2）可以通過屬性充分描述；3）屬性可以隨時間的變化而改變；4）目標之間會互相影響；5）在給定屬性的情況下，目標對彼此的影響不變。

從 Santoro 等人 [2017] 的研究中得出的重要見解是將關係推理函數分解成兩個組件或「模塊」：一個感知前端（其任務是識別原始輸入中的目標，並將其表示為向量）和一個關係推理模塊（使用這些表徵來推理目標及其相互作用）。這兩個模塊都是用端到端的方法聯合訓練的。用計算機科學中的術語來說，關係推理模塊實現了一個介面：它在有向邊和節點的圖上進行操作，其中節點由實值向量表示，並且是可微分的。本文主要開發該介面的關係推理方面。

我們評估的一些任務也可以通過在符號級別上操作的手工演算法高效、完美地解決。例如，可以用約束傳播和搜索 [Norvig，2006] 或舞蹈鏈 [Kuth，2000] 的方法在零點幾秒內解決 9*9 的數獨問題。從各個方面看這些符號演算法都很優越，只有一點除外：它們不符合介面，因為它們不可微也不適用於實值向量描述。因此它們不能用於具有深度學習感知前端和端到端學習的組合模型中。

繼 Santoro 等人 [2017] 後，我們用「關係推理」一詞來表示以目標和交互為中心的問題解決方法。儘管「關係推理」與「關係邏輯」或「一階邏輯」這種其他科學分支的術語相似，但這並不意味著直接的並行。

本文認為多步關係推理是深度學習架構中一項極具挑戰的任務。我們開發了循環關係推理模塊，它即這篇文章的主要貢獻。我們在三個不同的數據集上進行多步關係推理，證實了這是一個強大的架構，它在 bAbI 和數獨遊戲上都實現了當前最佳的結果。

論文：Recurrent Relational Networks