AI閱讀比人類做的更好？並不是

最新 02-10

（GETTY IMAGES）

作者｜Tom Simonite

譯者｜Erica Yi

編輯｜Emily

星期一（2018 年 1 月 15 日）的時候，新聞里都在講人工智慧上的一個顯著的突破。微軟和中國零售商阿里巴巴均獨立宣布，他們已經製作出了在斯坦福大學設計的閱讀理解測試中，能夠匹配或者勝過人類的軟體。微軟稱這是一個「重大的里程碑」。媒體報道誇大了這一說法，比如 Newsweek 聲稱，「可能會有數百萬人的工作不保」。

但是估計這些工作在一段時間內還是安全的。因為對這些巨頭公告的深入調查表明，他們的軟體尚未達到與人類相同的水平，即使所用的測試被約束在很窄的範圍內。

這些公司對有關成果的誇大是建立在由斯坦福大學提供的人類測試分數的基礎上。但是建立斯坦福測試的研究人員和其他領域的專家認為，該測試的評判基準並不能很好地衡量以英語為母語的人會在測試中的得分表現，是以一種有利於機器而非人類的方式設立的。一個參與該項目中的微軟研究員表示，在了解語言細微差別方面，「人類還是遠勝於機器」。

這個裡程碑並沒有說明人類與機器智慧比較中的不可靠性。人工智慧軟體一直在進步，不斷刺激著相關的研究和商業化的投資。但是科技公司聲稱的關於他們在理解照片或言論等方面擊敗了人類的公告，都不可全信。

在 2015 年，谷歌和微軟均宣告他們的演算法遠勝於人類在圖像內容分類上方面的能力。這項測試包括將照片分成 1000 種類型，其中 120 種是狗的不同品種。這項測試明顯更適合電腦，但是對人類來說很棘手。從更廣泛的意義上來講，在圖像解讀方面，電腦仍然落後於成人甚至是小孩，因為它們缺乏對這個世界常識的理解。谷歌仍然會檢查其照片產品中的「大猩猩」一詞，以避免將該術語用於黑人的照片。

在 2016 年，微軟宣告它的語音識別功能跟人一樣好，並將這一成果稱為「歷史性的成就」。但是，幾個月後，IBM 報道說在他們的原始測試中，人類的實際表現其實比最初微軟測到的要好。在 2017 年，微軟做出了一個新的聲明，再次說其語音識別能與人相媲美。現在來說，這個聲明還成立。但是它是基於在 1990 年代陌生人之間的數百小時電話錄音，在一個相對來說受控的環境中測試的。迄今為止，即使是最好的軟體也仍然不能像人一樣，在或是嘈雜的環境中，或是有人說話含糊不清的，或是有不同口音的時候，理解隨機出現的話語。

在本周的公告中，微軟和阿里巴巴表示，在閱讀和回答關於文本的問題時，他們研發的演算法已經能夠與人類相匹配或勝過人類。這一聲稱是基於被稱為 SQuAD（Stanford Question Answering Dataset 的簡稱，斯坦福問題回答數據集）挑戰。它的創造者之一， Percy Liang 教授稱這是一個「相當狹窄」的閱讀理解測試。

做 SQuAD 測試的機器學習軟體必須回答從維基百科文章中摘錄的 10000 個簡單的問題。研究員通過分析 90000 個附帶有答案的樣本問題來構建其軟體。

類似於「水滴與冰晶是在哪碰撞形成降水的？」這樣的問題，必須用原文中高亮的詞語來回答。在這種情況下，這個問題的回答是，「在雲中」。

在 1 月初的時候，微軟和阿里巴巴向斯坦福提交的模型分別獲得 82.65％和 82.44％高亮部分的正確率。他們模型的正確率頭一次超過了斯坦福大學研究人員稱為「人類表現」的 82.304％的正確率。

但是 Liang 和一名曾經幫助建立 SQuAD 的學生 Pranav Rajpurkar 表示，之前配給人類的分數原來並沒有打算用於人機之間詳盡的和最終的比較。而且基準本身是被設置為更偏向軟體的，因為人類和軟體用的是不同的評分方式。

測試的問題和答案是通過提供維基百科摘錄給亞馬遜的 Mechanical Turk 眾包服務的工作人員產生的。為了得到正確的答案，軟體程序給出的答案必須與眾多工作人員為每個問題提供的三個答案中的一個相吻合。

微軟和阿里巴巴用作基準的人類表現得分則是通過使用一些 Mechanical Turk 的答案來創造一個所謂的複合人類。每個問題三個答案中的一個回答會被挑選出來，以填補考生的角色（即作為假定複合人類的答案），而另外兩個答案在檢查時被作為「正確」答案的比照。通過相互對比兩個而不是三個參考答案，降低了問答匹配的幾率，明顯阻礙了人類對比於軟體的得分。

Liang 和 Rajpurkar 表示，他們之所以在 2016 年的時候把 SQuAD 設計成那個樣子，是因為當時他們並沒有試圖建立一個用來明確裁決人機競賽的系統。

但是兩年以後，兩個價值數十億美元的公司選擇像那樣去使用它。阿里巴巴的新聞稿稱，它的軟體「在世界最具挑戰性的閱讀理解測試之一中首次超過人類」。微軟的聲明表示，它已經使「AI 可以像人一樣閱讀文檔，並且可以回答關於該文檔的問題。」

與此同時，用 Mechanical Turk 工作人員作為人類的標準也帶來了一些問題。每小時薪金為 9 美元的人又有多在乎答案的正確與否呢？

以色列 Bar Ilan 大學的高級講師 Yoav Goldberg 表示，SQuAD 人類表現分數大大低估了英語母語者在簡單的閱讀理解測試中的表現。他說，百分比最好被用來衡量眾包問題和答案的一致性，「這是衡量數據集的質量，而不是人類的質量。」

為了回答來自 WIRED 上的質疑，微軟提供了一份來自研究管理者的 Jianfeng Gao 的聲明，「任何行業標準都有潛在的局限性和弱點。總的來說，人類在理解語言的複雜性和語言的細微差別的時候，仍然遠勝於機器。」阿里巴巴對相關的質疑並沒有做出回應。

斯坦福的 Rajpurkar 表示，仍需給予微軟和阿里巴巴的研究團隊肯定，因為他們在很有挑戰性的領域做出了令人驚嘆的研究結果。他還在計算更公平的 SQuAD 人類表現評分的版本。即使在掌握 SQuAD 的測試結果中，機器現在或未來優於了人類，也遠不能說明機器就可以像人類一樣閱讀了。斯坦福大學的 Liang 說，這個測試太簡單了。他說：「目前的方法過於依賴淺顯的線索，而不是理解任何東西。」

軟體在諸如象棋和圍棋的遊戲中打敗人類，可以說是令人驚嘆的，但也可以說是有局限性的。畢竟圍棋棋盤上有效位置的數量超過了宇宙中原子的數量。但是，即使是最好的人工智慧軟體也不能在許多流行的電子遊戲中擊敗人類。

艾倫人工智慧研究所首席執行官 Oren Etzioni 對他所在領域的前景和能力提出了建議，喜憂參半。他說：「好消息是，在這些狹窄的任務中，我們第一次看到了接近人類的學習系統。」這些局限但有用的系統在類似於定向廣告或家庭音箱等領域，仍然是很有用和有利可圖的。而且，計算機擅長一些人類不太擅長的任務，比如搜索大量文本或者計算大量的數據。

但儘管如此，AI 還有很長的路要走。Etzioni 說：「得到的結果顯示，這些系統其實還是很狹窄和脆弱。畢竟我們通常意義上所說的閱讀、語言理解或視覺，其實包含更加豐富或更加廣泛的含義。」

機器智慧

https://www.wired.com/story/ai-beat-humans-at-reading-maybe-not/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI漫遊 的精彩文章:

※伯克利AI研究：深度神經網路的物理對抗實例

TAG:AI漫遊 |