當前位置:
首頁 > 知識 > 神經網路也能解數學題,DeepMind發布千萬數學題海數據集

神經網路也能解數學題,DeepMind發布千萬數學題海數據集

機器之心報道

機器之心編輯部

從中學數學到高數微積分,我們需要做大量數學題。知識點看懂了並不算懂,能解題才是王道。那麼神經網路是不是也能理解數學題,並解出這些題目呢?因為從數據上來說,數學題也就是一個序列而已,神經網路說不定能將這個序列映射到正確的答案。

為了促進這方面的研究,DeepMind 近日發布了一個新型數據集,包含大量不同類型的數學問題(練習題級別),旨在考察模型的數學學習和代數推理能力。

數據集地址:https://github.com/deepmind/mathematics_dataset

目前該數據集發布了 1.0 版,其每個模塊包含 200 萬(問題答案)對和 10000 個預生成測試樣本,問題的長度限制為 160 字元,答案的長度限制為 30 字元。每個問題類型中的訓練數據被分為「容易訓練」、「中等訓練難度」和「較難訓練」三個級別。這允許通過課程來訓練模型。

該數據集包含以下類別:

如下所示為該數據集的示例,其中 Question 是待解決的數學題目,Answer 是對應題目的解。這些題目涉及上述多種數學問題,且進行了分級。

圖 1:數據集示例。

什麼是神經網路的數學推導能力

深度學習在模式匹配、機器翻譯、強化學習等領域取得了巨大成功。但是,深度模型的穩健性和靈活性遠不及人類。它們對陌生環境的泛化能力不足,且易受對抗樣本的影響。

人類智能區別於神經模型且優於後者的一個領域是對「代數泛化」對象和實體的離散組合推理。人類在該領域的泛化能力是複雜、多面的,與雙語翻譯領域的泛化有顯著區別。例如,考慮以下數學問題(答案是 ?70x ? 165):

為了解決這個問題,人類需要使用多種認知技能:

將字元解析成實體,如數字、算術運算符、變數(加在一起可組成函數)和單詞(決定問題是什麼)。

規劃(例如,識別組合順序正確的函數)。

使用子演算法進行函數複合(加、乘)。

利用工作記憶存儲中間值(如複合函數 h(f(x)))。

應用所需的規則、變換、過程和定理。

這個數據集項目提出了什麼

該數據集包含多種不同類型的數學問題。其動機是,模型如果不具備一些代數泛化能力,則很難處理多種數學問題(包括泛化)。

該領域對神經架構分析非常重要。該數據集除了提供大量問題以外,還有多個優勢:數學提供了一個自洽的環境;不同問題類型的符號是相同的,這使得該數據集可以輕鬆擴展;在一個問題上學到的規則和方法通常可用於其他問題。例如,數字加法的規則在哪裡都是一樣的,且可作為其他問題(如乘法、多項式加法)的「子程序」(subroutine)。能夠執行知識遷移的模型會在這個數據集上取得較好的性能,要想解決較難的問題,知識遷移必不可少。

數學本身是一個有趣的領域,儘管解決該數據集中學校級別數學問題的模型沒有實際應用,但它們可能會帶來更強大的模型,用於解決大量有趣新穎的數學問題。一般來說,用於驗證旨在捕捉算術/系統性推理新架構的實驗通常來自數學領域,而這並非巧合。因此 DeepMind 希望通過為此類模型提供大規模訓練和評估框架,來為數學領域之外的機器推理研究打下堅實的基礎。

貢獻

數據集和泛化測試:該序列到序列數據集包含多種不同類型的數學問題,可用於評估數學推理。DeepMind 還提供了生成代碼和預生成問題。

實驗和模型分析:DeepMind 研究者執行了實驗評估來研究當前最優神經架構的代數能力,證明了這些架構能夠很好地處理多種數學問題,但無法處理所有問題類型,此外它們的泛化能力也有待提升。

這個數據集測試了什麼

在論文中,作者還用該數據集測試了兩種主流模型:循環神經網路和 Transformer,它們已經在序列建模問題上展示出當前最優的性能。下圖展示了測試使用的 Attention LSTM 與 Transformer,它們都使用編碼器-解碼器結構建模問題與答案:

圖 2:Attentional LSTM 與 Transformer 架構。

下表展示了不同網路架構的 interpolation 和 extrapolation 性能:

圖 3:不同模型的準確率,其中 RMC 為關係循環神經網路。

如上所示,使用帶有多個記憶 slot 的 RMC 在性能上並不會有多大幫助,這表示 RMC 很難使用 slot 操作數學實體。而對於帶或不帶注意力機制的 LSTM,它們的性能也差不多,作者推測注意力機制並沒有學習解析數學問題,因此獲得的性能提升並不大。最後,Transformer 明顯比其它循環神經網路表現更好一些。

論文:ANALYSING MATHEMATICAL REASONING ABILITIES OF NEURAL MODELS

論文地址:https://arxiv.org/pdf/1904.01557.pdf

作為人類智能的核心能力,數學推理具有一些獨特的挑戰:我們不是主要依靠經驗和證據來理解和解決數學問題,而是基於推斷、學習和利用定律、公理和符號操作規則。在本文中,DeepMind 提出了一個評估(並最終設計)神經架構和相似系統的新挑戰,開發了一套數學問題,包括以自由格式文本輸入/輸出形式的問題和答案序列。

數學領域涵蓋算術、代數、概率和微積分,其結構化性質使構建訓練和測試分割成為可能。該訓練和測試分割旨在清晰地闡明不同架構的能力和故障模式,以及評估它們組合與關聯知識和學習過程的能力。描述了數據生成過程及其潛在的未來擴展之後,DeepMind 還對來自兩種最強序列到序列架構的模型進行了全面分析,並發現了它們在解決數學問題和泛化知識方面的顯著差異。

本文為機器之心報道,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

ICLR 2019趣分析:「學神」吳佳俊個人高產,谷歌、MIT投稿量最多
華為技術是如何領先全球的:華為雲首次開放日,揭秘2012實驗室

TAG:機器之心 |