替代圖靈測試？讓人工智慧參加數學和科學考試

新聞 07-04

SyncedReview

作者：Shixin Gu

參與：Joshua Chou、Chain Zhang、熊貓

圖靈測試在過去很長一段時間裡都被認為是一種衡量人工智慧的好方法，但隨著人工智慧技術的發展，我們發現這種方法也有一些缺陷或不足的地方。今年五月，印度理工學院的 Arindam Bhattacharya 發表了一篇題為《A Survey of Question Answering for Math and Science Problem》的論文，介紹了研究者在製造能通過標準化考試（standardized test）的機器上所取得的進展。機器之心技術分析師 Shixin Gu 對這篇論文進行了分析解讀。

論文原文請訪問：https://arxiv.org/abs/1705.04530

這篇論文提供了一個思考人工智慧的新視角。在衡量人工智慧上，圖靈測試（Turing test）已經被證明是一種不足實用的方法。所以現在標準化的數學和科學考試（standardized math and science tests）已經被視為了一種可用于衡量人工智慧的方法。該論文的目的是概述能通過標準化數學和科學考試的機器的製作方法。

1. 引言

該論文的作者首先指出，對於人類，我們可以通過我們給出的相關問題的答案來進行評價。但我們不能使用同樣的標準來評價機器。由阿蘭·圖靈在 1950 年提出的圖靈測試 [1] 的評價方式是看機器能否表現出與人類無法區分的對話行為。而在今天，Clark 和 Etzioni [2] 提出可使用數學和科學的標準化考試作為評價機器智能的適當方法。這篇論文給出了一個簡要介紹，讓我們可以了解可如何訓練機器來解決數學和科學問題。

2. 問答和數學/科學領域

問答（QA）是一種需要機器為問題生成答案的任務，其中問題和答案都是自然語言。現代問答系統主要基於兩種範式。

一種是基於文本的問答（text-based QA），其依賴於大量文本。首先，它會通過信息檢索方法來檢索包含了答案的文檔，然後其會從文本中提取出候選答案並對這些答案進行排名。

另一種是基於知識的問答（knowledge based QA），這種方法會創建問題的語義表徵（semantic representation），然後將其用於查詢事實資料庫（databases of facts）。

在科學和數學問題上的問答還面臨著額外的獨特難題，因為解決這些問題既需要對問題有很好的理解，還需要將問題的內在表徵包含進來。此外，它往往需要執行符號計算 [2]。通過信息檢索或基於知識的方法，這個問題無法得到輕鬆的解決。

3. 用於科學的問答

標準化考試中的科學問題主要包含三類：基本事實檢索、推理和世界知識、圖表。這個問答任務所用的數據集是 New York Regents Science Exams (NYSED) [3]。

3.1 數據集

該論文提供了一些測試和答案的示例。

基本問題

1. 下面哪種物體是最優良的電導體？

（A）蠟筆（B）塑料勺子（C）橡皮擦（D）鐵釘

2. 風或水所導致的土壤運動被稱為：

（A）冷凝（B）蒸發（C）侵蝕（D）摩擦

這些問題可以通過基於信息檢索的問答系統解決。

簡單推理

1. 下面哪個例子描述了生物在獲取養分？

A）一隻狗在掩埋骨頭（B）一個女孩在吃蘋果（C）一隻昆蟲在樹葉上爬行（D）一個男孩在花園裡種植番茄

通過基於已知事實的簡單推理可以得到這個問題的答案。機器應當知道「吃」涉及到「獲取養分」，而蘋果包含養分。

更複雜的世界知識

1. 一個騎自行車的學生觀察到在平滑的道路上比在不平整的道路上騎得快，這是因為平滑的道路有

（A）更小的重力（B）更大的重力（C）更小的摩擦力（D）更大的摩擦力

對於這個問題，機器應該具備更深度的知識和更好的語言能力。比如，「騎自行車」意味著在移動，然後按路徑推理。

圖表

1. 圖 1 中哪個字母指示的植物結構可以吸收水和養分？

替代圖靈測試？讓人工智慧參加數學和科學考試

3.2 模型

人們採用了多種方法來解決這個問題。這篇論文展示了兩種方法。

參考文獻 [4] 提出了一種使用整數線性規劃（ILP/ Integer Linear Programming）的方法。其中，問答問題基於半結構化的知識（structured knowledge）而被形式化所需的支持圖（Support Graph），這最終會變成 ILP。這個系統如圖 2 所示。

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 2：TableILP 會搜索將問題和答案連接起來的最佳的支持圖（推理鏈）。這個例子的問題是：紐約州的哪個月白天持續時間最長？答案是：六月。

參考文獻 [5] 使用了一個解算器集合（ensemble of solvers）來在不同的層解決問題。這些層如圖 3 所示，該系統包含了信息檢索解算器、點互信息解算器（Pointwise Mutual Information solver）、支持向量機解算器、RULE 解算器（其中包含人工編碼的規則）和整數線性規劃。這個系統被稱為 ARISTO，並且實現了當前最佳。

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 3：Aristo 使用了五個解算器來回答多選問題，其中每一個都使用了不同類型的知識

4. 用於數學的問答

信息檢索系統不能解決數學問題。為了解決數學問題（尤其是算術問題），系統需要理解該問題，並且構造一個等式來進行計算。幾何問題由於依賴圖表而有所困難。

4.1 數據集

與 3.1 部分類似，本論文提供了標準化考試中的樣本並給出了相應的解答。其中幾何使用了來自 SAT 的問題，其它問題則來自 NYSED。

代數問題

1.Molly 擁有 Wafting Pie 公司。今天早上，她的員工使用了 816 個雞蛋來烤南瓜餅。如果她的員工今天總共使用了 1339 個雞蛋，那麼他們下午使用了多少個雞蛋？

2.Sara 的高中今年贏了 5 場籃球賽，輸了 3 場。他們今年總共比賽了幾場？

3.John 有 8 個橙色氣球，但是丟掉了 2 個。John 現在有多少個橙色氣球？

語言處理是必需的，而且後兩者還需要世界建模（world modeling）。

幾何問題

在圖 4 中，機器應該理解算術和圖表推理（diagrammatic reasoning）。

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 4：如圖所示，AB 與圓 O 相交於 D，AC 與圓 O 相交於 E，AE=4,AC=24,AB=16。求 AD。

4.2 模型

論文中給出了四種方法。一是簡單的動詞分類（verb categorization），旨在解決代數詞問題。該模型如圖 6 所示，我們可以看到該模型會提取出問題中的動詞，然後基於動詞類別來構建等式。

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 6：動詞分類

另一個系統被稱為 ALGES，使用了整數線性規劃（ILP）來將詞問題映射到一個等式樹中，而且更加複雜。如圖 5 所示。

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 5：用於詞問題及其 Qsets 的學習過程的概覽

第三個模型則試圖解決幾何圖表問題。它是在參考文獻 [6] 中提出的。它使用了三個步驟來將文本和幾何圖表對齊：

1）選取最大化像素覆蓋（pixel coverage）的元素並識別圖中的圖元（primitive）；

2）使用圖元和文本元素之間的協議；

3）最大化元素的一致性（coherence）。

在圖 7 中，對齊（alignment）是由系統實現的。

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 7：圖表理解：識別圖中的視覺元素，並將它們與提及的文本對齊。視覺元素和它們對應的文本提及按不同顏色編碼。這幅圖加了顏色最好看。

最後一個模型被用於解決幾何圖表問題，其是在參考文獻 [7] 中提出的。其遵循兩個步驟：1）使用了第三個模型和語言處理來將圖表和問題轉換成邏輯表達式；2）使用了可滿足性解算器（satisfiability solver）來推導答案。這些步驟可見圖 8.

替代圖靈測試？讓人工智慧參加數學和科學考試

圖 8：我們用於求解幾何問題的方法概述

5. 結論

當前最佳的方法還不能很好地解決標準化考試。未來將會有更多方法完成標準化的數學和科學問題。即使機器通過了這些測試，我們仍然不能說它是智能的（intelligent）。但是人工智慧通過數學和科學標準化考試將會成為人工智慧歷史上的一個里程碑事件。

6. 參考文獻

[1] Turing, Alan M.「Computing machinery and intelligence.」Mind 59.236 (1950): 433-460.

[2] Clark, Peter, and Oren Etzioni.「My Computer Is an Honor Student-but How Intelligent Is It? Standardized Tests as a Measure of AI.」AI Magazine 37.1 (2016): 5-12.

[3] NYSED. 2014. New York Regents Science Exams. http://www.nysedregents.org/.

[4] Koncel-Kedziorski, Rik, et al.「Parsing Algebraic Word Problems into Equations.」TACL 3 (2015): 585-597.

[5] Schoenick, Carissa, et al.「Moving Beyond the Turing Test with the Allen AI Science Challenge.」arXiv preprint arXiv:1604.04315 (2016).

[6] Seo, Min Joon, et al.「Diagram Understanding in Geometry Questions.」AAAI. 2014.

[7] Seo, Min Joon, et al.「Solving Geometry Problems: Combining Text and Diagram Interpretation.」EMNLP. 2015.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※AMD 開源高性能機器智能庫MIOpen，可加速卷積神經網路
※人臉模型壓縮：MobileID可在移動設備上快速運行
※阿里智能音箱發布前夕，首次公布自然語言處理成果
※從任務到可視化，如何理解LSTM網路中的神經元
※通過提取神經元知識實現人臉模型壓縮：MobileID可在移動設備上快速運行

TAG:機器之心 |

您可能感興趣

※參加科舉考試人數最少的朝代
※科研人員參加學術前沿國際研討會
※中戲藝考人數創歷史新高，易烊千璽也來參加考試
※保羅-喬治將代替考辛斯參加全明星賽
※參加唐代科舉的「留學生」
※免費參加清華大學陸向謙人工智慧寒假訓練營，獲得實習工作機會
※中國古代女人還能參加科舉考試！還是狀元！科舉考試唯一女狀元竟淪為男人的玩物！
※英格蘭和美國學校將不會參加PISA「全球勝任力」測試
※軟體測試參加培訓好還是自學好？
※陳好任中戲考官易烊千璽李蘭迪等明星考生參加藝考
※大詩人李白為何沒有參加科舉考試
※空間中心模擬室學生團隊赴澳參加ICRA人工智慧挑戰賽
※俄羅斯戰爭『機器人』將參加閱兵
※「周易預測考試」一朋友參加駕證科三考試，起卦看看，能考過嗎？
※數據盾受邀參加人工智慧區塊鏈行業高峰論壇
※密歇根大學校隊主帥參加活塞主教練面試
※參加國內高端康復學術會議，把握學科最新發展趨勢
※勵志！阿富汗22歲母親抱娃席地參加大學入學考試
※區婦聯組織參加第二屆世界智能大會大數據與智慧社會論壇活動
※外軍研究：「洋女兵」參加選美給軍隊形象工程建設帶來的思考