機器閱讀理解超越人類?司羅:這得往細了說
2018年才沒幾天,人工智慧就很「惹眼」。
近日在由斯坦福大學發起的機器閱讀理解領域頂級賽事SQuAD(Stanford Question Answering Dataset)挑戰賽上,歷史上首次出現超過人類水平的機器閱讀理解成績:阿里巴巴數據科學與技術研究院(iDST)自然語言理解(NLP)團隊提交的「SLQA模型」,與微軟亞洲研究院提交的「R-NET模型」先後實現機器閱讀理解精確匹配(Exact Match,EM)達到82.44%和82.65%,略優於人類在2016年創下的82.304%的精準率。
獲悉這一結果後,SQuAD負責人Pranav Rajpurkar難掩興奮之情。他在社交媒體上表示,這是人工智慧在2018年「一個強勁的開始」(A strong start to 2018)。
一問:SQuAD是何方神聖?
SQuAD挑戰賽是行業內公認的「機器閱讀理解標準水平測試」,也是該領域頂級賽事,被譽為「機器閱讀理解界的ImageNet」。每年都有來自全球學術界和產業界的研究團隊都積極地參與其中,包括阿里巴巴、騰訊、微軟亞洲研究院、艾倫人工智慧研究院、IBM、Salesforce、Facebook、谷歌以及卡內基·梅隆大學、斯坦福大學等知名企業研究機構和高校。
業界普遍認為,該項賽事對自然語言理解的進步有重要推動作用。
SQuAD挑戰賽構建了一個大規模的機器閱讀理解數據集(包含10萬個問題),測試文章來源於500多篇維基百科文章。人工智慧在閱讀完數據集中的一篇短文之後,需要回答若干個基於文章內容的問題,然後與標準答案進行比對,得出精確匹配和模糊匹配(F1-score)的結果。
這一次,AI的閱讀理解在精確匹配結果上超越了人類。
二問:該如何解讀「超越人類」?
閱讀理解能力是人類認知環節最關鍵能力之一,也是汲取知識的主要方式。為了衡量計算機在此項任務上的水平,斯坦福大學NLP課題組設計了SQuAD這套數據集,用於方便NLP及相關領域研究人員進行有效評估。
1月17日,阿里巴巴iDST–NLP項目負責人司羅在接受科Sir採訪時說:「阿里和微軟都在EM上小幅超過人類的EM分數,在一定程度上證明了計算機所採用的方法的有效性。」
不過,因SQuAD評測採用的數據集有一定條件約束,比如篇章句式難易、問題類型、涉及辭彙量不同甚或答案在文章中等,所以,這種有限範圍內的「超過人類」並不能說明機器已經超過人類的閱讀理解能力。
司羅認真的說:「我們更願意認為這次的進步是一個里程碑——那就是藉助模型和演算法,計算機進行文本的閱讀理解工作成為可能。」
三問:這次的進步在哪裡?
司羅同時認為,從技術發展的角度,這次機器在EM分數上超過人類得分對致力於NLP領域的廣大研究人員來說,也是一個很大的鼓舞。
「深度學習模型在NLP領域的應用——這次是在SQuAD閱讀理解任務上,證明了其有效性。」司羅解釋說,相對於之前採用的需要大量訓練數據的統計學模型的方式,端到端的深度神經網路可以更好地發現一些潛在特徵和表示,降低人工抽取特徵的成本。
如果用航空業的發展來做類比的話,類似於「從螺旋槳驅動變為了噴氣式發動機驅動」。
「雖然在模型解釋性上還需要進一步研究和探索,但我們相信這是一個充滿希望和挑戰的方向。」司羅表示。
四問:模型靠模擬人類思維勝出?
阿里巴巴iDST-NLP團隊提交的模型名為「SLQA」,這是該團隊經不斷研究後提出的「基於分層融合注意力機制」的深度神經網路模型。
「SLQA模型模擬了人類在做閱讀理解問題時的一些行為,包括結合篇章內容審題、帶著問題反覆閱讀文章、避免閱讀中遺忘而進行相關標註等,從而實現閱讀理解能力的提升。」司羅說,結合以上思路,團隊構建的模型在閱讀理解實操中「練就」了逐步聚焦併兼顧全局的解答方式,並最終收穫佳績。
這是否意味著機器已經可以並開始模擬人類思維了呢?司羅認為這種說法並不準確。
「準確的說法是設計機器的演算法和模型中採用的方式是『試圖模擬人類的思維過程』。」司羅仍以飛行器舉例說,人類設計飛機時,是受到飛鳥的啟示;但從原理上,飛機的製造源自對空氣動力學的研究。
「在空氣動力學指導下研究鳥類飛行,並設計與之對應的飛行部件,才是有意義的。」他說。
同樣地,司羅團隊在對閱讀理解任務建模時,也並非盲目地試圖模仿人類思維,而是基於人類思考方式的啟示,在機器學習相關理論的指導下進行模型的設計。「我們將機器閱讀理解拆解成很多與人類思維方式對應子問題,基於前人理論和實驗發現,選擇深度學習模型,並採用分層表示框架設計來完成這一目標。」
五問:將會帶來什麼?
近年來,機器人屢屢在一些考試中勝出,2017年答題機器人挑戰數學高考、科大訊飛醫考機器人挑戰醫考,今有阿里巴巴、微軟的NLP模型在SQuAD中勝出。在人機對戰中機器迎來一個又一個勝利,將會帶來什麼?
司羅說,機器閱讀理解及問答技術已經在電商領域找到了合適的應用場景。「阿里小蜜」對交易規則的解讀及「店小蜜」的商品售前諮詢即是例證。
2017年「雙11」期間,不少「剁手黨」吐槽商家活動規則難懂、涉及紅包的「閱讀理解題」難做,紛紛前往網店諮詢。殊不知,給出他們清晰解讀的,95%都是機器人。
「在每次『雙11』等活動時,都會有大量的用戶對活動規則進行諮詢。以往,阿里小蜜的知識運營同學都需要提前研究淘寶和天貓上的活動規則,從一堆規則描述、活動介紹文本中提煉可能的問題。而通過機器閱讀理解的運用,則讓機器直接為用戶提供規則解讀服務,並呈現最自然的交互方式。」司羅說,如今阿里小蜜、店小蜜具有如同人一般的閱讀理解能力,這使得問答產品體現出真正的智能,進一步提升服務效率。
「我們認為研究的結果可以落地到應用場景的表現,非常值得稱讚。」司羅對記者說,所謂的勝利其實是之前人類不會對計算機的複雜問題解決能力有多高期望,但隨著技術發展和相關研究成果的產出,漸漸讓人類見到希望。
「對這種成功的應用,我們可能有時會給出一些過高的褒獎。」
六問:機器閱讀理解現處什麼段位?
自然語言處理是實現機器和人機交互願景的重要技術基石,機器閱讀理解則可被視為自然語言處理領域皇冠上的明珠之一,在學術界已成為熱門研究領域。
一個例子是,在2017年ACL會議中,「ReadingComprehension(閱讀理解)」成為錄取論文中最熱門的關鍵詞。
不過,司羅認為,目前的機器閱讀理解技術對於解決wiki類客觀知識問答已經取得比較好的結果,但對於複雜問題來說「仍處於比較初級的階段」。
「機器閱讀理解將讓知識獲取不受人腦的限制。但對於機器閱讀理解的『能理解會思考』的終極目標來說,現在還只是萬里長征的開始。」司羅認為,對自然語言的更深層次的歸納總結、知識引用、推理歸因以及知識圖譜和遷移學習,將是機器閱讀理解的未來發展方向。
本來科技
微信ID:OK_tech
TAG:本來科技 |