為什麼計算機的閱讀能力不如人類？

科技 03-23

全文共2409字，預計學習時長5分鐘

目前人工智慧正迅速發展，媒體們幾乎每天都在報道新的突破。

2017年，計算機和棋盤遊戲是公眾關注的焦點；2018年初，微軟和阿里巴巴聲稱已經開發出可以像人類一樣閱讀的軟體。聳人聽聞的頭條新聞緊隨其後。美國有線電視新聞網（CNN）寫道，「現在計算機的閱讀能力比人類強」，而《新聞周刊》則擔心「如今計算機的閱讀能力比人類強，這會使數百萬的人面臨失業的危險」。

但現實並沒有那麼嚴重。

SQuAD

每個人工智慧挑戰都需要一個新奇的名稱。斯坦福問答數據集SQuAD是問答（QA）取得新突破背後的催化劑。

SQuAD彙集了超過10萬個與維基百科上的數百篇文章相關的問題和答案。例如一系列與石油危機相關的問題：1973年的石油危機始於何時？（1973年10月），或者1974年3月的石油售價是多少？（12美元）。

研究者利用80%的這些問題來訓練問答模型。在訓練過程中，這些軟體會學習如何發現文本中的答案，並找出各種疑問詞之間的的區別，例如「何處」與「何時」。之後，再對沒有看過的剩下20%問題進行評估。

一個源於SQuAD數據集的維基百科段落，附有問題與相應答案。

在自然語言處理領域，SQuAD已迅速成為一種極具影響力的數據集，因為它使AI研究者們能夠客觀地評估軟體，並對彼此的系統進行比較。

自2016年發布以來，自然語言處理（NLP）對問答系統的開發興趣與日俱增，這並非偶然。不過，我們不能高估已經取得的進步。實際上，一個問答軟體在SQuAD數據集中的維基百科問題上取得高分，比你想像的更加容易。

首先，SQuAD文本閱讀理解挑戰實際上並沒那麼難。參與問答系統的維基百科段落，每個問題都肯定有一個答案。這極大地簡化了挑戰：該項任務為識別最有可能構成問題答案的詞語，而非完全翻譯一個段落。這在許多情況下十分簡單。例如當問題以「何處」發問時，段落中只有一處地點，答案就幾乎不會出錯。實際上，參與的問答系統不必搜索相關維基百科段落。有些系統可以做到這一點，但在SQuAD測試中得分更差一些。

目前，兩個問答系統在SQuAD得分榜上並列第一。

其次，人類在SQuAD上的得分（正確率為82.3%）毫無疑問表明了我們對現實的低估。這些人類的數據通過亞馬遜土耳其機器人網站獲取，在該網站上，人們通過完成簡單的任務來獲取報酬。由於做任務只能獲得很少的錢，因此所謂的「土耳其人」通常工作迅速而草率。此外，他們大多數的「錯誤」都並非是不正確答案。

通常在這些情況下，一個土耳其人的答案會剛好比他的同事多或少一兩個單詞。如果一個人對此前的石油價格題目的回答是大約12美元，而其他所有人的回答都是12美元，那麼第一個答案就會被視為不正確。與信息不足的Turker相比，競爭激烈的問答軟體知道Turkers通常如何選擇他們的答案：因為在培訓過程中已見過數千個例子。

問題回答

即使目前問答系統無法超越人類，但必須承認，它們在閱讀測試中仍取得了令人印象深刻的83%的正確率，這個戰績可以視為其智力的證明。但我們不應過多將智力歸功於軟體。雖然個體之間確實存在差異，諸如微軟和阿里巴巴的現代問答系統卻很難翻譯一篇文章。相反地，它們都非常依賴複雜的模式匹配。

SQuAD數據集中有關石油危機的維基百科段落，以及阿里巴巴模型匹配的答案。

當搜索問題的答案時，現代問答系統首先嘗試找到問題與其所在維基百科段落之間的對應關係。這對於像」1973年石油危機何時開始」的問題而言，並不是很困難。通過搜索包含1973、石油危機，開始等辭彙，軟體會迅速找到上文段落中的正確句子。疑問詞「何時」提供了最後一塊拼圖：通過訓練數據，軟體已經掌握到「何時」問題總把時間作為答案。因此，它選擇相關句子中的唯一時間（1973年10月）作為正確答案回答問題。

以上例子中的第二個問題（1974年3月的石油價格是多少？）顯示出這個方法的局限性。通過查找價格、石油、三月和1973年等辭彙，軟體仍能找到正確的段落。但有趣的是，這個句子包含兩個有可能性的價格：3美元一桶或者12美元。因為問答軟體並不解釋句子，僅是通過模式匹配。現在這個問答系統選擇其看到的第一個價格：3美元一桶。SQuAD數據集的頁面顯示，微軟和阿里巴巴系統都提出了這個錯誤答案。實際上，缺乏翻譯是當前所有問答系統的根本性缺點。

業務單一

大多數現存的人工智慧系統都是單一業務。如果它們已在一個特定任務或者一個特定文本類型訓練，通常無法處理其他領域的問題。接受過維基百科訓練的問答軟體，大多無法回答其他類型文本的問題，比如法律文件或者科普類文章。要做到能夠回答問題，需要查看該特定領域成千上萬個問題和答案。收集這樣的訓練數據價格昂貴，也是一個難以完成的任務。

當前問答系統的狹隘觀點甚至比這更糟糕。去年夏天，斯坦福大學的兩名研究人員展示了欺騙針對SQuAD訓練的問答軟體是多麼容易：通過修改維基百科上的一些細節，他們成功地大幅降低了最好系統的質量。

添加一個含有可能答案的句子，問答軟體便開始猜測。

石油價格的例子已經彰顯了目前問答軟體的主要弱點：如果維基百科的段落包含幾個可能的答案，即使是最好的問答系統也開始猜測。同樣的問題在上圖超級碗的例子中也可以找到：如果只是在文本中添加一個額外的四分衛，系統將無法辨別在第33屆超級碗大賽期間，哪個選手剛好是38歲。

更糟糕的是，如果你在文章中添加一個與正確答案模糊相關，但不符合語法的單詞序列，即使是最好的問答系統，其答案正確率也低於10％。而人類就能更好地應對這種誤導性情況。

結論

有一點可以明確：計算機要像人類一樣閱讀，仍有很長的路要走。不過，最近的問答系統的發展前景很好——或者如果你害怕長期失業的話，這種發展甚至是令人畏懼的。畢竟，我們有多少次遇到非結構性集合文本呢？法律文件、科學文獻，甚至希拉里柯林頓的郵件——都有數百或數千頁有趣內容，但無人可以從頭讀到尾。

如果問答軟體可以回答我們有關它們自身的所有問題，那不是很好嗎？然而，真正的突破只在問答系統擺脫對昂貴訓練數據的依賴時才會出現。

當問答系統可以不用首先查看成千個類似例子，直接回答一個新領域的問題時才算正真的突破。這種稱作「無人監督」方法的成功，無疑預示著人工智慧的一場新革命。但我們現在還未到達那裡。

留言點贊發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組：周子嫄、趙璇

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※Facebook承認：參與研究間諜軟體有18％是青少年
※計算速度提高10倍！Alluxio使Spark更高效

TAG:讀芯術 |