當前位置:
首頁 > 新聞 > ACL 2018:Attention 機制佔主流,中文語法檢錯測評引關注

ACL 2018:Attention 機制佔主流,中文語法檢錯測評引關注

為期六天的 ACL 於上周在墨爾本會展中心落下帷幕,在這六天時間內,共計八場 tutorial,三百多篇論文展示,十五場 workshop,涉及機器翻譯、機器學習、問答系統、信息提取、語義分析等多個方向的研究。毫無疑問,這是一場 NLP 領域的年度盛會。

今年的觀眾群體一如往昔,從學界的教授、學生,到業界的各類研究人員。雖然角色不一,但對於大部分人來說,參會的目的大同小異:聽取會上各式各樣的報告,了解學術圈和工業界中一些比較前沿的技術和方向,認識業內人士,展開進一步交流和探討。

雷鋒網此次 ACL 之行採訪到騰訊 SNG 數據中心總監劉黎春以及該中心知文團隊技術負責人鍾黎。作為第一次參加 ACL 的「新人」,劉黎春對 AI 科技評論描述了他的參會體驗。

作為騰訊參會代表之一,他在主會這幾天,一直忙於與參會學生進行聯繫與交流。他表示,此行 ACL 的目的一方面是了解學術界和工業界的前沿技術動向,另一方面是建立和高校老師、學生間的聯繫,交流探討合作機會,看是否有哪些比較好的技術,能用在自己目前的業務場景下。

他進一步說到,和學生聊完之後也會有諸多收穫,「比如我們昨天跟一個 UIUC 的博士生交流,她的博士課題主要是做 representation learning,這次 ACL 的工作是文本相似度計算,其實在我們目前的 QA 技術里,其中一個重要的場景就是解決文本相似度計算的問題。」

劉黎春如是評價 ACL——「面向自然語言處理,更加專業。」結合他此前參加 AAAI 的經驗,他對雷鋒網表示,ACL 在 NLP 領域更加專業,更加細分,而 AAAI 是一個綜合性的 AI 的會議,所以 AAAI 的文章會更多、更雜,包括計算機視覺、機器學習、自然語言處理等。在他看來,雖然這兩個會議關注的重點不一樣,但參加這兩個會議對他們團隊都非常有幫助。ACL 可以讓他們在 NLP 領域結識更多的學生,包括高校的老師和企業的研究人員。AAAI 則可以看到一些在其他領域比較好的方法,可以嘗試是否能將其遷移到 NLP 領域。

熱門領域集中在機器翻譯和 QA,目前沒有較大突破

而針對 ACL 的研究熱點,他表示,可以明顯看到,不管是投稿文章,還是接收文章,很多都屬於 QA、對話和機器翻譯領域。「這兩年並沒有發生太大變化,包括 ACL 2018 的兩篇 best paper(Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information,Know What You Don"t Know: Unanswerable Questions for SQuAD),都與 QA 緊密相關。此外,深度學習仍然是這兩年的主題,佔據統治地位。不僅僅是劉黎春持有以上觀點,在這幾天的會議上,諸多與 AI 科技評論交流的老師不約而同表達了類似看法——很難看到重大突破。「Attention 仍然是一個非常重要的主題,可以看到超過 90% 的文章都用到 Attention。」

關於 Attention 的典型例子是谷歌在去年六月發表的 Attention Is All You Need 一文,他們提出一個只基於 Attention 的結構來處理機器翻譯等與序列模型相關的問題,一改傳統基於 RNN 或者 CNN 的模型基礎,該模型可以高度並行地工作,在提升翻譯性能的同時訓練速度也獲得了極大提升。這掀起了 Attention 機制的使用熱潮。

雖然沒有較大的技術突破,但在 ACL 2018 上也能看到一些創新點。「我覺得今年 VAE(Variational Auto-Encode)技術用得比較多,強化學習和對抗學習一直是這兩年的熱門。」騰訊知文團隊負責人鍾黎對雷鋒網如是說到。

鍾黎對雷鋒網表示,今年也提出了一些比較有意思的問題。比如說 learning to ask,以前我們做問答都在考慮 learning to answer,現在開始考慮如何問問題。另外也有出現一些新的任務,比如說有篇文章考慮預測對話過程中出現不符合預期的轉折,對話會跑偏等,可以提前去判斷跑偏情況。

此外,鍾黎表示,今年有很多文章都是在生成上做控制,比如說控制文字風格、情感、回復的情況等等。

提到今年的亮點文章,劉黎春與鍾黎對清華與微軟合作的一篇文章印象深刻。

以前在解決多輪對話的時候,這是一個對業界極具挑戰性的問題,但這一次在會上,清華跟微軟合作的一篇文章通過反問一些問題,來更好地了解用戶在對話里想要達成的目的,更好地去把握用戶的意圖,給用戶提供更好的對話體驗。他們如是評價:「這是比較好的一個嘗試方向。」

具體說來,這一文章講到了學習提問(learning to ask),即如何去找到一些更好的提問。會有一些提前設置好的主題詞,先定義好 what——做什麼,how——怎麼做等幾種類型,然後根據不同的類型來學習提問,這樣可以保持對話的持續性和流暢性,使得對話更加人性化。

自然語言處理頂會上的中文測評系統

當然,在這樣一個國際性會議上,不止可以看到一系列最新的計算機技術,還可以看到 AI 對傳統語言學產生的影響。來自北京語言大學的助理研究員饒高琦今年在 ACL 上作為 NLPTEA: The 5th Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席,向雷鋒網重點介紹了 CGED(Chinese Grammatical Error Diagnosis)測評系統。

CGED 是自然語言處理領域的權威賽事,由 IJCNLP 聯辦,今年已是第五屆,參賽選手需要用人工智慧演算法自動識別中文裡面的語法錯誤。

「簡單來說,我們的測評是給外國人學漢語做的一個中文語法糾錯系統,中國人很少會犯語法錯誤,但對於學中文的老外來說,這種錯誤常常發生。此外,兒童在小學、中學等階段的學習過程中,也很容易犯錯。」

饒高琦表示,他們主要教外國人學漢語,有一半的學生來自海外。他們會在課堂上以及一些漢語類考試中積累數據,再將訓練集開放出來,然後開發出訓練模型,進行自動檢錯和改正,幫助老外校對中文語法錯誤。

在去年,阿里巴巴 iDST 團隊在 CGED 三個 level 中全面奪冠,今年哈工大、科大訊飛聯合拿了第一名,社科院取得了第二名,阿里排名第三。饒高琦表示,目前這個評測系統還比較困難,因為比較缺數據。但他進一步表示,這一系統特別有用。「現在每年新增 210 萬註冊學生學漢語,這個市場本身很大,但是跟技術存在巨大落差。我想將來這是一個蠻重要的增長點,會引發很多人前來關注。包括企業界已經看到了前景,學術界也有中科院、哈工大、鄭州大學、雲南大學等參與了這一評測。」

站在語言學家的角度,饒高琦表示,NLP 的發展對語言學提出的一個新挑戰就是如何生產 AI 可以用的知識。「以前的語言學就是面向人的知識,但現在主要是面向 AI。什麼樣的知識可以被 AI 用,這是語言學家現在會更多關注的一個問題,也是我比較關注的一個問題。」

而此外,他也表示,今年成立亞太地區的 AACL,這說明亞洲的研究力量成為不可忽視的群體。不管是這一領域的研究,還是工作機會,一定會越來越多。

當然,以上內容只是 AI 科技評論在 ACL 上的一小部分見聞。在這樣一個 AI 迅速發展的時代,AI 科技評論將繼續致力於連接學術界與產業界,跟蹤學術最新動態,報道產業最新趨勢。接下來,AI 科技評論也將與大家相約 KDD、ECCV 等國際性 A 類學術會議,帶來更多精彩報道,敬請期待。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

微軟第四財季三大業務線均兩位數增長 完整財年收入首破千億美元
蘋果將合併 Core ML/Siri 團隊,成立 AI/ML 團隊;蘇寧與 SAP 簽約,布局人工智慧、大數據

TAG:雷鋒網 |