微軟、阿里用閱讀理解證明，文字的事兒人類已經不如 AI 了

最新 01-18

關鍵時刻，第一時間送達！

據CNN、CNET、彭博社等多家外媒報道，1月11日，微軟和阿里巴巴開發的AI模型在斯坦福閱讀測試中首次勝過人類。這是繼國際象棋、橋牌等遊戲之後，機器再次戰勝人類。

機器精準度匹配首次超越人類

SQuAD比賽，是由斯坦福大學發起的機器閱讀理解領域頂級賽事，它構建了一個大規模的機器閱讀理解數據集（包含10萬個問題），文章來源於500多篇維基百科文章。機器在閱讀完數據集中的一篇短文之後，需要回答若干個基於文章內容的問題，然後與標準答案進行比對，得出精確匹配（Exact Match）和模糊匹配（F1-score）的結果。

通過這套試題梳理出線索，可看出機器學習模型是否能夠在經過大量信息處理後給出問題的確切答案。這些題目所構成的試卷被認為是當前世界檢測機器閱讀水平的最權威標準之一。

此次測試中，參賽公司讓各自的人工智慧系統解答斯坦福問答數據集的提問，然後，該數據集評估閱讀理解能力，將智能系統與普通人的答案進行比較，並進行排名。

結果，微軟、阿里巴巴分別以82.650和82.440的精準率打破了世界紀錄，並且超越了人類82.304的成績，刷新了在SQuAD上的排名。