讓計算機明白「天天」代表「每一天」之後，如何避免讓它認為「爸爸」代表「每個爸」

新聞 08-03

雷鋒網 AI 科技評論按：類比推理是反映語言規則的一種高效方式，本文將介紹一種漢語語言推理任務，論文作者來自北京師範大學和中國人民大學，論文題為：漢語形態語義關係的類比推理（論文地址：http://aclweb.org/anthology/P18-2023）。該論文在 ACL 2018大會上發表，相關資源在Github發布後獲得了超過2000星好評。雷鋒網將論文內容概括如下（感謝論文作者對本文的審核和修改）。

類比推理可以很好地刻畫語言規則，舉例說明，「人」等價於person，「人人」則等價於英文的 every person，那麼如果「天」代表 day，我們就可以類比推理「天天」代表 every day。目前類比推理也是評估詞嵌入的一個可靠方法。類比推理還可以用於詞形轉換、語義關係探測和翻譯未知詞等任務。但是不同語言之間擁有很大的形態差異，類比推理針對各個語言的研究也不盡相同。以漢語來說，漢語是公認的缺乏詞形變化的分析性語言。目前漢語類比推理的相關工作也屈指可數，僅有的中文類比數據集也只是英文數據集的部分翻譯，且數據規模較小，只包含 134個中文詞，並且不涉及到任何語法知識。因此，作者團隊決定深入研究漢語類比推理，並且發布了一個標準 benchmark 用以評估中文詞嵌入（附帶 100 多個開源預訓練嵌入）。

在詞法關係方面，作者主要研究了兩個內容，一是重疊（Reduplication），二是半詞綴（Semi-affixation）。所謂重疊就是詞語中的部分漢字以一定的形式發生重疊，從而引起語法或語義差異，作者總結出六種重疊模式，如下圖所示。

以 A-A 為例，對於漢語中的名詞來說，這種結構可以表示「親屬關係」（爸->爸爸）或者表示「每一個」（天->天天），對於動詞來說，這種結構可以表示動作時間短暫或嘗試（看->看看），這種結構還能將形容詞轉為副詞（深->深深）。

由於漢語缺乏典型的詞綴，一些成分既發揮了類似詞綴的作用同時又能當作獨立使用的語素，這些成分按劉月華老師的觀點稱之為半詞綴。目前作者團隊總結了 21 個半前綴，和 41 個半後綴。例如，半前綴可以將數詞變為序數詞，如「第」（一->第一），半後綴還有將形容詞名詞化的能力，如「子」（胖->胖子）

在語義關係方面，作者團隊從地理、歷史、自然和人物四個方面提出了 28 種語義關係。舉個地域方面的例子，「浙江」是省名，「浙」是「浙江」簡稱，「杭州」是「浙江」省會，「越劇」是「浙江」代表戲劇，這就是他們之間的語義關係。通過語義關係可以形成類比問題（如「皖」是「安徽」的省會，那麼「浙」是哪個省的省會？）。

為了滿足漢語類比推理任務的要求，作者團隊自建了 CA8 數據集（共17813 個問題），包含大量的類比問題，對語法和語義都有涉及。CA8 相較於之前翻譯自英文數據集的 CA_translated 有很大改進。如下圖所示。

最後，作者的實驗基於 68 種形態關係和 28 種語義關係，他們採用基於詞向量的計算方法來挑戰這個任務。實驗結果表明，向量表示模型、上下文特徵和訓練語料庫都對漢語類比推理有重要影響。同時實驗也證明了 CA8 的確是評價漢語詞嵌入的可靠 benchmark。 CA8 和同期發布的上百種中文詞向量資源將成為漢語 NLP 任務的堅實基礎。論文相關資源和代碼在Github發布以來，已獲得超過2000星，是今年NLP領域最受歡迎的項目之一。

以上就是雷鋒網對於這篇論文的全部介紹。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※專訪圖瑪深維創始人鍾昕：做醫療 AI 要心懷敬畏感
※在樹莓派上實現人臉識別

TAG:雷鋒網 |