在比賽做閱讀理解上,人類第一次輸給了機器
AlphaGO 的出現,讓人類體會到了人工智慧的強大實力。令人驚訝的是,它還在以恐怖的速度不斷地進步著。
這一次,人工智慧又以新的姿勢刷新了人類對它的認知。在由斯坦福大學發起的 SQuAD (Stanford Question Answering Dataset)文本閱讀理解挑戰賽中,來自阿里巴巴和微軟團隊的人工智慧模型分別以高分戰勝了人類選手,位列榜單的前兩位。
這是人工智慧首次在文本閱讀測試中戰勝人類,意味著人工智慧在自然語言處理方面已經達到了人類對語言詞句的理解層次。
在這場閱讀測試中,斯坦福大學的自然語言計算組會先從 500 多篇維基百科文章中抽取出大量的數據集(包含 10 萬個問題),然後將一篇幾百字(平均 100 字,最多 800 字)的文章給標註者閱讀,讓標註人員提出最多 5 個基於文章內容的問題並提供正確答案。
參賽者可以利用這個數據集進行模擬訓練,並且通過開放平台來提交自己的演算法用於評分。
由於 SQuAD 所能提供的龐大的數據規模,這個測試被認為是當前世界監測機器閱讀水平的最權威測試之一,能夠檢測出機器學習模型能否在處理大量信息後給出問題的準確答案。
來自阿里巴巴 iDST 團隊的 SLQA+ 模型最終取得了 82.440 的成績,超越了人類的 82.304 分;而晚一天參與挑戰的微軟亞洲研究院自然語言計算組的 R-NET+ 模型,也在 EM 值(即 Exact Match)上取得了 82.650 的最高分。
從整個榜單來看,來自中國研究團隊的表現十分突出。除了阿里和微軟之外,騰訊、科大訊飛等團隊的測試結果也都名列前茅。
阿里巴巴研究院自然語言處理首席科學家司羅指出,在類似「天為什麼會下雨」這種客觀性問題方面,人工智慧的回答準確率較高;而通過建立一種「基於分層融合注意力機制」的深度神經網路模型,機器還可以模擬人類在閱讀理解文本時的一些思考、標註、通篇理解等行為。
目前,阿里巴巴已經把這項技術應用在了旗下的很多產品之中。比如作為智能客服的阿里小蜜,就採用了這種機器學習閱讀理解技術。當顧客對某個商品提出一些基礎性的問題時,機器可以直接對商品詳情頁面中的信息進行閱讀和歸納,來解答用戶的提問,提高服務效率。
在雙 11、雙 12 等流量較大的購物節活動中,這樣的自助服務非常有效果。把這些基礎性的問題交由智能客服去解決,複雜問題再留給人工客服,可以達到事半功倍的效果。
除了電商零售行業之外,機器語言理解技術還可以用於博物館指南、在線醫療問題解答等領域中。
這一趨勢同樣體現在微軟的人工智慧應用中。在人工智慧的用戶終端體驗方面,微軟最出名的就是旗下的兩個人工智慧助手小娜(Cortana)和小冰了。尤其是中國血統更加濃厚的小冰,在提供聊天機器人商業解決方案上面應用範圍頗廣。
京東小冰、東航小冰、敦煌小冰……當你打開嵌入了微軟小冰的智能客服系統時,經過研究員對基於文本、語音、語義識別的幾次技術迭代,如今的小冰已經變得越來越「善解人意」,回答也越來越接近於人類的自然語言。
人工智慧的學習能力的確強大到令人類感受到威脅,但如果替它們找到合適的應用場景,這種「機器勝過人類」的案例反而不是什麼壞事。
題圖來自:Blogger
※這台長得像胖版文曲星的遊戲掌機,能當筆記本電腦用,還能吃雞?
TAG:愛范兒 |