讓計算機明白「天天」代表「每一天」之後,如何避免讓它認為「爸爸」代表「每個爸」
雷鋒網 AI 科技評論按:類比推理是反映語言規則的一種高效方式,本文將介紹一種漢語語言推理任務,論文作者來自北京師範大學和中國人民大學,論文題為:漢語形態語義關係的類比推理(論文地址:http://aclweb.org/anthology/P18-2023)。該論文在 ACL 2018大會上發表,相關資源在Github發布後獲得了超過2000星好評。雷鋒網將論文內容概括如下(感謝論文作者對本文的審核和修改)。
類比推理可以很好地刻畫語言規則,舉例說明,「人」等價於person,「人人」則等價於英文的 every person,那麼如果「天」代表 day,我們就可以類比推理「天天」代表 every day。目前類比推理也是評估詞嵌入的一個可靠方法。類比推理還可以用於詞形轉換、語義關係探測和翻譯未知詞等任務。但是不同語言之間擁有很大的形態差異,類比推理針對各個語言的研究也不盡相同。以漢語來說,漢語是公認的缺乏詞形變化的分析性語言。目前漢語類比推理的相關工作也屈指可數,僅有的中文類比數據集也只是英文數據集的部分翻譯,且數據規模較小,只包含 134個 中文詞,並且不涉及到任何語法知識。因此,作者團隊決定深入研究漢語類比推理,並且發布了一個標準 benchmark 用以評估中文詞嵌入(附帶 100 多個開源預訓練嵌入)。
在詞法關係方面,作者主要研究了兩個內容,一是重疊(Reduplication),二是半詞綴(Semi-affixation)。所謂重疊就是詞語中的部分漢字以一定的形式發生重疊,從而引起語法或語義差異,作者總結出六種重疊模式,如下圖所示。
以 A-A 為例,對於漢語中的名詞來說,這種結構可以表示「親屬關係」(爸->爸爸)或者表示「每一個」(天->天天),對於動詞來說,這種結構可以表示動作時間短暫或嘗試(看->看看),這種結構還能將形容詞轉為副詞(深->深深)。
由於漢語缺乏典型的詞綴,一些成分既發揮了類似詞綴的作用同時又能當作獨立使用的語素,這些成分按劉月華老師的觀點稱之為半詞綴。目前作者團隊總結了 21 個半前綴,和 41 個半後綴。例如,半前綴可以將數詞變為序數詞,如「第」(一->第一),半後綴還有將形容詞名詞化的能力,如「子」(胖->胖子)
在語義關係方面,作者團隊從地理、歷史、自然和人物四個方面提出了 28 種語義關係。舉個地域方面的例子,「浙江」是省名,「浙」是「浙江」簡稱,「杭州」是「浙江」省會,「越劇」是「浙江」代表戲劇,這就是他們之間的語義關係。通過語義關係可以形成類比問題(如「皖」是「安徽」的省會,那麼「浙」是哪個省的省會?)。
為了滿足漢語類比推理任務的要求,作者團隊自建了 CA8 數據集(共17813 個問題),包含大量的類比問題,對語法和語義都有涉及。CA8 相較於之前翻譯自英文數據集的 CA_translated 有很大改進。如下圖所示。
最後,作者的實驗基於 68 種形態關係和 28 種語義關係,他們採用基於詞向量的計算方法來挑戰這個任務。實驗結果表明,向量表示模型、上下文特徵和訓練語料庫都對漢語類比推理有重要影響。同時實驗也證明了 CA8 的確是評價漢語詞嵌入的可靠 benchmark。 CA8 和同期發布的上百種中文詞向量資源將成為漢語 NLP 任務的堅實基礎。論文相關資源和代碼在Github發布以來,已獲得超過2000星,是今年NLP領域最受歡迎的項目之一。
以上就是雷鋒網對於這篇論文的全部介紹。
※專訪圖瑪深維創始人鍾昕:做醫療 AI 要心懷敬畏感
※在樹莓派上實現人臉識別
TAG:雷鋒網 |