當前位置:
首頁 > 最新 > 說AI閱讀理解能力勝過人類還為時尚早

說AI閱讀理解能力勝過人類還為時尚早

本月,微軟和阿里巴巴兩個團隊在閱讀理解測試中獨立創建了可以超越人類的AI程序,這是一個小小的里程碑。正如你所期望的那樣,這個消息引起了一陣轟動,有人於是發布了「機器人的閱讀能力超越人類」這樣的頭條新聞。從技術的角度看,這些頭條並沒有錯。但是,就像很多人工智慧的報道一樣,他們是利用歧義來誇大事實,用來吸引更多的關注。但實際上,這只是在一個非常具體和有限的任務,而我們平時所說的「閱讀」,其實並不僅限於回答一大堆問題。本文將結合外媒的一些報道簡單分析一下。


了解測試的內容

這個測試是基於一個由斯坦福大學計算機科學家構建出來的一個數據集,被稱為斯坦福問題答案數據集(Stanford Question Answering Dataset ,簡稱SQuAD),該數據集包含超過10萬對基於536段維基百科文摘的問答,然後雙方需要閱讀文摘後回答問題。從表面上看,SQuAD看起來強大,其涉及到的問題也非常廣泛,從歷史知識、流行文化到基本化學等等。

在該項測試中,面對SQuAD的問題,人類正確地解決了82.3%的問題,而阿里巴巴和微軟則略高一籌,分別達到82.4%和82.6%(微軟略勝阿里巴巴)。雖然人類和計算機的成績很接近,但從得分來看,勝利確實是屬於計算機。


測試其實並沒有想像中那麼難

但是,雖然問題涉及面很廣,題量也很大,但是細心分析,其實測試本身並沒有想像中那麼複雜,因為每個問題的答案,其實都隱含在原文當中,只不過使用的措辭可能有所不同。這一類的「閱讀理解」,我們中學的時候不知道做過多少回,語文或者英語都有這一類題目。例如,有一道問題是問:「路德的神學反對誰的權威?」如果沒有任何素材,你可能回答不上來,但測試中其實是給出了一段文摘的,答案就在文摘當中,例如,當原文包括「路德的神學挑戰教皇權威和職位」這樣的句子時,我們就可以給出正確的答案。而且,你不需要了解什麼是「權威」,你只需要尋找基本的語法成分(如句子的主語和賓語)就可以了。

阿里巴巴和微軟兩者都使用深度學習來分析樣本,並從中篩選出回答問題的常見方法。例如,如果題目是問一個人什麼時候出生的,並提供了一段描述他們生活的段落,演算法只會在問題中發現」什麼時候「這個關鍵詞,並在段落中尋找與日期相關的句子。通過這種方法來完成SQuAD測試顯然是成功的,但是像許多人工智慧一樣,計算機的這種處理方式其實很容易被欺騙的。例如,當我們在段落中增加一些額外的信息來混淆視聽,那麼計算機往往就會被問題卡住。

因此,有專家認為,SQuAD的設計並不是對真正意義上的」閱讀理解「的實際評估,而是被設計成基於機器學習方法的評價。這就好比是我們上中學的時候,老師在輔導我們如何回答閱讀理解題的時候,會叫我們先看問題,然後在文中找關鍵詞,這種方式可能確實能夠回答出問題,但是,當我們答題完畢的時候,可能連文章表達的真正內容都不知道,更不用說作者的感情色彩之類了。


計算機的對手是誰?

作為人類大腦的代表,本次人類的測試者是通過亞馬遜的Mechanical Turk(計算機科學標準實踐)招募的工作人員,他們每回答一個問題將可以獲得幾美分的獎勵,並且必須要在一定的時間內完成。所以,他們不一定就能夠代表多數人,如果是其他人回答,也許能夠取得更高的分數。


對於很簡單的問題,但計算機可能答不上來

這次測試的問題其實是有「套路」的,但我們考試的時候其實還遇到過一類稱為「開放式問題」的題目,這些題目並沒有標準的答案,但是老師評卷的時候卻是可以給出分數的,這就是所謂的「綜合分析能力」考察。例如,題目問「為什麼小明要這樣做?」、「如果小明沒有去上學會發生什麼事?」之類。而且,還有重要的一點,本次測試是基於英文進行的,對於博大精深的中文,難度將會更大了。


雖然路還長,但成績值得肯定

雖然我們看到阿里巴巴和微軟的表現還存在很多不足,但是,他們取得的成績還是值得肯定的。在SQuAD之前,如果你問計算機是否能對維基百科的問題進行閱讀理解,那麼你很難理直氣壯地回答。但經過短短的幾年時間,由深度學習支持的人工智慧就能夠取得這樣的成績,確實讓人感到驚訝。而且,就算只是表面層面的理解,其實已經可以在許多領域發揮作用。例如,用於搜索引擎、AI音箱等將可以更好理解人類的語義,或者,阿里巴巴可以將其用於在線客服,解決大量的諮詢投訴等問題。

那麼人工智慧能夠像人類一樣真正理解語言嗎?該領域的研究人員目前沒有做出任何預測。表面上看,理解文本需要大量的人類知識,以至於機器可能需要數十年才能與達到我們的水平。然而,人工智慧的歷史表明,最初被嘲笑為「作弊」或「冒險」的解決問題的方法可以很快結合起來,創造出意想不到的強大功能。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技豆 的精彩文章:

我應該先學哪種編程語言?

TAG:科技豆 |