ACL 2018：Attention 機制佔主流，中文語法檢錯測評引關注

新聞 07-27

為期六天的 ACL 於上周在墨爾本會展中心落下帷幕，在這六天時間內，共計八場 tutorial，三百多篇論文展示，十五場 workshop，涉及機器翻譯、機器學習、問答系統、信息提取、語義分析等多個方向的研究。毫無疑問，這是一場 NLP 領域的年度盛會。

今年的觀眾群體一如往昔，從學界的教授、學生，到業界的各類研究人員。雖然角色不一，但對於大部分人來說，參會的目的大同小異：聽取會上各式各樣的報告，了解學術圈和工業界中一些比較前沿的技術和方向，認識業內人士，展開進一步交流和探討。

雷鋒網此次 ACL 之行採訪到騰訊 SNG 數據中心總監劉黎春以及該中心知文團隊技術負責人鍾黎。作為第一次參加 ACL 的「新人」，劉黎春對 AI 科技評論描述了他的參會體驗。

作為騰訊參會代表之一，他在主會這幾天，一直忙於與參會學生進行聯繫與交流。他表示，此行 ACL 的目的一方面是了解學術界和工業界的前沿技術動向，另一方面是建立和高校老師、學生間的聯繫，交流探討合作機會，看是否有哪些比較好的技術，能用在自己目前的業務場景下。

他進一步說到，和學生聊完之後也會有諸多收穫，「比如我們昨天跟一個 UIUC 的博士生交流，她的博士課題主要是做 representation learning，這次 ACL 的工作是文本相似度計算，其實在我們目前的 QA 技術里，其中一個重要的場景就是解決文本相似度計算的問題。」

劉黎春如是評價 ACL——「面向自然語言處理，更加專業。」結合他此前參加 AAAI 的經驗，他對雷鋒網表示，ACL 在 NLP 領域更加專業，更加細分，而 AAAI 是一個綜合性的 AI 的會議，所以 AAAI 的文章會更多、更雜，包括計算機視覺、機器學習、自然語言處理等。在他看來，雖然這兩個會議關注的重點不一樣，但參加這兩個會議對他們團隊都非常有幫助。ACL 可以讓他們在 NLP 領域結識更多的學生，包括高校的老師和企業的研究人員。AAAI 則可以看到一些在其他領域比較好的方法，可以嘗試是否能將其遷移到 NLP 領域。

熱門領域集中在機器翻譯和 QA，目前沒有較大突破

而針對 ACL 的研究熱點，他表示，可以明顯看到，不管是投稿文章，還是接收文章，很多都屬於 QA、對話和機器翻譯領域。「這兩年並沒有發生太大變化，包括 ACL 2018 的兩篇 best paper（Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information，Know What You Don"t Know: Unanswerable Questions for SQuAD），都與 QA 緊密相關。此外，深度學習仍然是這兩年的主題，佔據統治地位。不僅僅是劉黎春持有以上觀點，在這幾天的會議上，諸多與 AI 科技評論交流的老師不約而同表達了類似看法——很難看到重大突破。「Attention 仍然是一個非常重要的主題，可以看到超過 90% 的文章都用到 Attention。」

關於 Attention 的典型例子是谷歌在去年六月發表的 Attention Is All You Need 一文，他們提出一個只基於 Attention 的結構來處理機器翻譯等與序列模型相關的問題，一改傳統基於 RNN 或者 CNN 的模型基礎，該模型可以高度並行地工作，在提升翻譯性能的同時訓練速度也獲得了極大提升。這掀起了 Attention 機制的使用熱潮。

雖然沒有較大的技術突破，但在 ACL 2018 上也能看到一些創新點。「我覺得今年 VAE（Variational Auto-Encode）技術用得比較多，強化學習和對抗學習一直是這兩年的熱門。」騰訊知文團隊負責人鍾黎對雷鋒網如是說到。

鍾黎對雷鋒網表示，今年也提出了一些比較有意思的問題。比如說 learning to ask，以前我們做問答都在考慮 learning to answer，現在開始考慮如何問問題。另外也有出現一些新的任務，比如說有篇文章考慮預測對話過程中出現不符合預期的轉折，對話會跑偏等，可以提前去判斷跑偏情況。

此外，鍾黎表示，今年有很多文章都是在生成上做控制，比如說控制文字風格、情感、回復的情況等等。

提到今年的亮點文章，劉黎春與鍾黎對清華與微軟合作的一篇文章印象深刻。

以前在解決多輪對話的時候，這是一個對業界極具挑戰性的問題，但這一次在會上，清華跟微軟合作的一篇文章通過反問一些問題，來更好地了解用戶在對話里想要達成的目的，更好地去把握用戶的意圖，給用戶提供更好的對話體驗。他們如是評價：「這是比較好的一個嘗試方向。」

具體說來，這一文章講到了學習提問（learning to ask），即如何去找到一些更好的提問。會有一些提前設置好的主題詞，先定義好 what——做什麼，how——怎麼做等幾種類型，然後根據不同的類型來學習提問，這樣可以保持對話的持續性和流暢性，使得對話更加人性化。

自然語言處理頂會上的中文測評系統

當然，在這樣一個國際性會議上，不止可以看到一系列最新的計算機技術，還可以看到 AI 對傳統語言學產生的影響。來自北京語言大學的助理研究員饒高琦今年在 ACL 上作為 NLPTEA: The 5th Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席，向雷鋒網重點介紹了 CGED（Chinese Grammatical Error Diagnosis）測評系統。

CGED 是自然語言處理領域的權威賽事，由 IJCNLP 聯辦，今年已是第五屆，參賽選手需要用人工智慧演算法自動識別中文裡面的語法錯誤。

「簡單來說，我們的測評是給外國人學漢語做的一個中文語法糾錯系統，中國人很少會犯語法錯誤，但對於學中文的老外來說，這種錯誤常常發生。此外，兒童在小學、中學等階段的學習過程中，也很容易犯錯。」

饒高琦表示，他們主要教外國人學漢語，有一半的學生來自海外。他們會在課堂上以及一些漢語類考試中積累數據，再將訓練集開放出來，然後開發出訓練模型，進行自動檢錯和改正，幫助老外校對中文語法錯誤。

在去年，阿里巴巴 iDST 團隊在 CGED 三個 level 中全面奪冠，今年哈工大、科大訊飛聯合拿了第一名，社科院取得了第二名，阿里排名第三。饒高琦表示，目前這個評測系統還比較困難，因為比較缺數據。但他進一步表示，這一系統特別有用。「現在每年新增 210 萬註冊學生學漢語，這個市場本身很大，但是跟技術存在巨大落差。我想將來這是一個蠻重要的增長點，會引發很多人前來關注。包括企業界已經看到了前景，學術界也有中科院、哈工大、鄭州大學、雲南大學等參與了這一評測。」

站在語言學家的角度，饒高琦表示，NLP 的發展對語言學提出的一個新挑戰就是如何生產 AI 可以用的知識。「以前的語言學就是面向人的知識，但現在主要是面向 AI。什麼樣的知識可以被 AI 用，這是語言學家現在會更多關注的一個問題，也是我比較關注的一個問題。」

而此外，他也表示，今年成立亞太地區的 AACL，這說明亞洲的研究力量成為不可忽視的群體。不管是這一領域的研究，還是工作機會，一定會越來越多。

當然，以上內容只是 AI 科技評論在 ACL 上的一小部分見聞。在這樣一個 AI 迅速發展的時代，AI 科技評論將繼續致力於連接學術界與產業界，跟蹤學術最新動態，報道產業最新趨勢。接下來，AI 科技評論也將與大家相約 KDD、ECCV 等國際性 A 類學術會議，帶來更多精彩報道，敬請期待。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※微軟第四財季三大業務線均兩位數增長完整財年收入首破千億美元
※蘋果將合併 Core ML/Siri 團隊，成立 AI/ML 團隊；蘇寧與 SAP 簽約，布局人工智慧、大數據

TAG:雷鋒網 |