當前位置:
首頁 > 科技 > 機器這次擊敗人之後,爭論一直沒平息

機器這次擊敗人之後,爭論一直沒平息

夏乙 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

又吵起來了。

只因為最近在閱讀理解這件事上,人類又被機器給超越了。

哈?人類又一陣地失守了?AI對魯迅作品的理解超過我了?

щ(?Д?щ) 可怕可怕……

就為了這件事,爭吵一直沒平息。

SQuAD風雲

機器閱讀理解,是一場競爭激烈的比拼。

競技場是SQuAD。

尤其是中國團隊開始「刷榜」之後。過去一年,大部分時間都是科大訊飛團隊和微軟不同團隊的競爭。7月微軟登頂,8月科大訊飛首次折桂,9、10兩月基本是微軟天下,11月訊飛再次創出最佳成績。

然後風雲突變。先是騰訊突然殺入,並成功在12月底霸榜。然而「好景不長」,微軟亞洲研究院和阿里巴巴iDST團隊今年初先後發力,再次創出歷史最好成績,並且首次「超越人類」。訊飛的成績實際已經被甩在第12位了。

SQuAD被稱為行業公認的機器閱讀理解頂級水平測試,可以理解為機器閱讀理解領域的ImageNet。它們同樣出自斯坦福,同樣是一個數據集,搭配一個競爭激烈的競賽。

這個競賽基於SQuAD問答數據集,考察兩個指標:EM和F1。

EM是指精確匹配,也就是模型給出的答案與標準答案一模一樣;F1,是根據模型給出的答案和標準答案之間的重合度計算出來的,也就是結合了召回率和精確率。

目前阿里、微軟團隊並列第一,其中EM得分微軟(r-net+融合模型)更高,F1得分阿里(SLQA+融合模型)更高。但是他們在EM成績上都擊敗了「人類表現」。

這就是最近討論特別激烈的閱讀理解機器擊敗人類。

注意看,在F1得分上,代表了目前機器最先進水平的阿里和人類還有4.614分的距離。

好了,成績公布完了,我們來講講試卷。

試題太簡單了

實打實的科學結果,看起來人類真的又敗了。

別慌別慌。

「機器超越人類」的新聞每次鋪天蓋地出現,都會搭配著一波祛魅的聲音,這次也不例外。比如說斯坦福NLP小組的官方twitter,就轉發了這麼一條:

有幾個模型在SQuAD數據集上超過了人類基線,就說機器學習在閱讀理解上超過人類,簡直是瘋了。這個進展很棒,但是咱們別誇大好么~

機器取得了這麼好的成績,比賽主辦方斯坦福NLP小組大概心裡也不踏實。他們在Twitter上轉發了一條回復:

在更複雜的數據集上測試一下這些模型怎麼樣?我感覺SQuAD已經被探索得差不多了,也不需要什麼「理解」。好像整個研究界都在這個數據集上過擬合了。

那麼,這套可能已經被學術圈玩透了的測試究竟什麼樣?

2016年,斯坦福大學從維基百科上隨機選取了536篇文章,隨後採用眾包的方式,由人類閱讀這些文章後,提出問題並人工標註出答案,構成了包含10萬多個問題的閱讀理解數據集SQuAD。

對於這樣一個數據集,以色列巴伊蘭大學的著名NLP研究者Yoav Goldberg的評價是太局限(restricted)了。

早在好幾個月之前,AI在SQuAD上接近人類得分的時候,Goldberg就專門寫了個PPT,把SQuAD批判了一番。

他列舉了SQuAD的三大不足:

受限於可以選擇span來回答的問題;

需要在給定的段落里尋找答案;

段落里保證有答案。

對於這些不足,DeepMind前不久發布的NarrativeQA論文做了更詳細的說明。

他們認為,由於SQuAD問題的答案必須是給定段落中的內容,這就導致很多評估閱讀理解能力應該用到的合情合理的問題,根本沒法問。

同時,這種簡單的答案通過文檔表面的信號就能提取出來,對於無法用文中短語來回答、或者需要用文中幾個不連續短語來回答的問題,SQuAD訓練出來的模型無法泛化。

另外,SQuAD雖然問題很多,但其實用到的文章又少又短,這就限制了整個數據集辭彙和話題的多樣性。

因此,SQuAD上表現不錯的模型,如果要用到更複雜的問題上,可擴展性和適用性都很成問題。

DeepMind的論文說,包括SQuAD在內的很多閱讀理解數據集都「不能測試出閱讀理解必要的綜合方面」。

Goldberg還從SQuAD中隨機抽取了192個例子,具體分析了這個數據集的缺陷。他想看看,這些問題的答案是不是過於簡單,需要經過怎樣的推理。

結果是,有33.3%的問題需要同義詞替換,9.1%的問題需要一些常識,64.1%的問題需要對句子結構做一些變換,13.6%的問題需要通過多個句子進行推理。

但這些問題所需的「推理」,其實也都不難。比如說下邊這個例子,抓住了Shakespeare scholar這個關鍵詞,就迎刃而解:

需要多個綜合多個句子的,其實也不難:

所以他說,SQuAD中的問題,只要找到合適的模板匹配方法,都能矇混過關。

這基本上相當於,你家AI已經上初中了,你卻還在考它兩位數的加減法。

人類代表好像也不太行

SQuAD雖然對AI來說簡單,但對於人類來說卻不見得。

我們知道,人類在這個閱讀理解數據集上,EM分數是82.304,F1得分是91.221。不過,這個「人類代表」的分數究竟是怎麼算出來的呢?

在評估人類成績的時候,SQuAD團隊從每個問題的3+個答案中,選擇第二個作為人類答案,其他答案作為正確答案。在EM結果上,如果第二個答案和其他答案中的任何一個完全相同就算對,不同就算錯;在F1結果上,會根據第二個答案與其他答案的重合度,得出一個0-1之間的分值。

很不幸,作為人類,我們各有各的習慣。就算是從文章中選擇短語來回答,選擇的內容長度也不一樣。

Goldberg說,人類的「錯誤」,大部分都「錯」在了選擇的內容邊界不一樣,如果讓幾個人投票選出支持率最高的答案,人類的得分就會大幅提高。

在「輸給AI」的時候,我們人類也會有這樣一個疑問:這場比賽是誰代表了我們?

還是很不幸,代表人類的是SQuAD團隊在眾包平台MTurk上招募的兼職人員,他們需要在兩分鐘內回答5個問題,每個問題賺16美分。不得不說,量子位是不太相信這波人類代表對待比賽的認真程度……

微軟亞洲研究院團隊也說,SQuAD的成績並不能代表計算機超越了人類的閱讀理解水平,「超越人類」也不該作為媒體報道的噱頭。

AI還是值得表揚的

雖說「超越人類」有點誇大了,但是,這兩年AI在SQuAD上的成績的確進步神速。

這個數據集2016年10月發布時,斯坦福的團隊自己也建了個邏輯回顧模型,在SQuAD上的F1得分是51%。

經過科研界一年多的折騰,前三名的EM得分已經全數超過80,F1得分也在向90分逼近,在這個數據集上全面超越人類指日可待。

最後,為了給人類增強信心,我們挑了幾個AI出錯的地方。

來讓大家「嘲諷」一下,緩解下緊張的情緒……

請聽題。

這是個跟氧氣有關的詞條。其中有個問題是:What is the second most abundant element?(含量排名第二的元素是什麼?)

這個答案在文中有明確的表述:By mass, oxygen is the third-most abundant element in the universe, after hydrogen and helium. (氧元素排第三,前面是氫、氦)

很清晰對么?

但是微軟和阿里巴巴模型的回答都是:氧。

……

再看一個例子。

這是一個與華沙有關的詞條。其中有個問題是:What is one of the largest music schools in Europe?(歐洲最大的音樂學校之一是哪個?)

答案在原文中是這麼說的:…the Fryderyk Chopin University of Music the oldest and largest music school in Poland, and one of the largest in Europe, the Warsaw School of Economics, the oldest and most renowned economic university in the country…

微軟的回答是:Warsaw School of Economics。

這……

好在,阿里回答對了。

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

2018年AI如何發展?普華永道做出了8點預測

TAG:量子位 |