當前位置:
首頁 > 最新 > ACL2017 艾傑大學:特定領域的文本問題自動生成

ACL2017 艾傑大學:特定領域的文本問題自動生成

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第11篇論文

ACL 2017 Student Research Workshop

特定領域的文本問題自動生成

Domain Specific Automatic Question Generation from Text

艾傑大學

Ege University

【摘要】我博士論文的課題是將土耳其生物文本中的描述句自動生成疑問句。我們採用句法和語義方法來解析描述句。句法和語義分別利用句法(成分或依賴關係)分析和語義角色標註系統。在解析步驟之後,問題陳述將答案嵌入到描述性句子中,並通過使用預定義的規則和模板來闡述。句法分析是使用一個名為MaltParser的開源依存句法分析器完成的(Nivre et al. 2007)。然而完成語義分析,我們將構建一個生物領域語料庫(BioPropBank)和一個帶有語義角色的語料庫。然後,我們將採用監督方法來自動標註句子的語義角色。

1 引言

「認知是通過思想、經驗和感官獲得知識和理解力的精神活動或過程。」(Stevenson, 2010)。思考是通過提問而引發的,試圖找到問題的答案從而獲取知識。研究表明提問是一種強有力的教學手段。講師們從學生的知識評價、學生的自我激勵和鼓勵學生自主學習等問題中受益。此外,學生還可以複習和熟記之前通過提問自己所學到的信息。

為講師人工生成問題需要耗費大量的時間和精力。此外,學生在訓練和記憶課程這方面也面臨這相當大的問題。為了解決這些問題,自動問題生成系統可以提供足夠的問題來減輕講師的負擔,幫助學生自學。

問題生成的動機是為了促進講師的工作,幫助學生更有效地實踐課程材料。在我的論文中,我們的目標是建立一個從土耳其生物文本中生成問題的系統。我們將生物文本作為我們系統的輸入,並生成基於問題質量的問題排序。

AQG是自然語言處理中的一個具有挑戰性的問題,特別是當需要進行語義分析來生成諸如如何以及為什麼這樣的綜合性問題時。據我們所知,在土耳其,AQG方法是由Cabuket al(2003)和Orhan et al(2006)提出的。這兩項研究生成問題都只使用了句法方法而沒有任何的語義分析。然而,從包含複雜過程的生物文本生成問題,不能僅僅依靠句法手段。生物程序中實體間的關係使其很難在句法層面上進行分析。理解這些程序需要一定程度的語義分析。在我的建議中,我們計劃提出一些綜合性的問題,比如如何以及為什麼在何時、何地、誰和誰。因此,我們需要對描述句進行句法分析和語義分析。

句子的句法分析決定了文本中的短語結構,並將其轉換為更結構化的表示形式,即解析樹。如「誰」做了「什麼」給「誰」,「在哪裡」,「何時」,「如何」和「為什麼」是一個句子的語義分析。語義角色標註(SRL)是一項可以自動識別句子中謂詞與其相關參數之間的語義關係任務。分配預定義的語義角色集,例如論元的Agent、Patient和Manner被定義為述詞論元結構(PAS)識別問題。

像PropBank(Palmeret al. 2005)和FrameNet(Baker et al. 1998)這樣的辭彙資源需要在語義角色上標註參數。土耳其辭彙語義資源(TLSR)是由Isguder?ahin和Adal?(2014)創建的。TLSR在一般的領域,不包括生物領域。此外,與其他語言的PropBank相比,TLSR的規模較小。目前,帶標註的動詞框架和意義的數量分別為759和1262。研究人員已經強調了SRL系統的領域敏感性(Albright et al. 2013;Carreras & Màrquez 2005; Johansson & Nugues 2008; Pradhan et al. 2008)。Pradhamet al(2008)指出,當測試數據的領域與訓練數據的領域不同時,SRL系統的性能明顯下降了10%。Albraight et al(2013)指出了在域內數據標註的存在下SRL系統的精度提高。因此,為了利用語義分析自動生成生物文本問題,我們首先需要在生物領域建立一個SRL系統。為此,我們將為生物學領域構建一個辭彙資源庫,並以半自動化的方式對語義角色進行標註。此外,土耳其還沒有自動的SRL系統。因此,我們也計劃設計一個有監督的SRL系統。

在AQG步驟中,我們使用句法和語義分析器來解析描述句。本文第一階段進行自動SRL系統構建,將用於在語義上分析描述句。描述句的句法分析將由一個名為MaltParser的開源依存句法分析器(Nivre et al. 2007)來完成。語義角色標註和句法標記將用於識別內容以產生相關問題(即,如果語義角色標籤為「Arg0」,那麼問題類型將是「who」)。在問題生成步驟中,一些預定義的規則和模板將會被利用。生成的問題的質量取決於它的句法和語義正確性,以及它與給定句子的相關性。

2 背景

為了從描述性的句子中生成疑問句,採用了句法和語義的方法。使用短語結構樹或依存句法分析器用句法方法來解析描述句。然後,就短語的標籤來選擇合適的問題類型。目前已經有幾個利用句法的AQG系統。Mitkovet al(2006)提出了利用句法方法來評估學生語法知識的多選擇問題生成系統。Heilman和Smith(2009)描述了一種基於語法和規則的方法,以自動生成實際問題來評估學生的閱讀理解。Liu et al(2012)通過使用一種名為G-Asks的句法開發了基於AQG系統的模板,以此來提高學生的寫作水平。Cabuk et al(2003)採用句法解析器得到句子中詞的詞幹、詞綴和曲折詞綴。預定義的規則被用來識別句子中的短語。在最後的步驟中,基於前面步驟確定的短語通過轉換規則生成問題。Orhan et al(2006)為小學的學生生成基於模板的數學問題。為了用語義方法生成問題,首先要標註論元的語義角色。然後根據語義標籤選擇合適的問題類型。Mannem et al(2010)利用SRL和命名實體識別(NER)系統生成基於規則的問題。Lindberg et al(2013)以教育為目的,使用語義方法生成了基於模板的問題。通過使用語義方法,Mazidi和Nielsen(2014)在化學、生物和地球科學等特定領域生成問題。在分析了SRL和短語結構樹解析系統的文本後,基於預定義模板生成了相關的問題。

講師通過提問來評估學生的閱讀理解能力。產生教學問題是費時的,需要耗費講師大量的精力。本文的主要目標是使用句法和語法來自動生成問題來減輕這些工作。在我們的知識中,用語義方法生成問題將在土耳其語料庫中首次出現。我的論文與Mazidi和Nielsen在使用語義方法方面的研究相似,但在問題的形成步驟上是不同的。

由於在語義問題生成系統中需要一個SRL系統,我們計劃設計一個監督SRL系統。在建立SRL系統時,採用監督、無監督和半監督的機器學習方法。在受監督的方法中,從訓練數據提取特徵後,一個1-N(N是角色數量),分類器(如支持向量機(SVM)、最大熵(MaxEnt)和樸素貝葉斯(NB))被用來標記語義角色。Garg和Henderson(2012)在使用依存分析器提取特徵的SRL方法中使用了貝葉斯方法。Albright et al .(2013)構建了一個帶有邏輯敘事的語義角色的語料庫,稱為MiPAQ。Monachesi et al.(2007) 從依存句法分析器中提取特性,用來監視SRL中的K鄰近演算法。

在半監督的方法中,少量標註了語義角色的數據稱為種子數據。分類器使用種子數據進行訓練。未標記的數據使用這個系統進行分類,並添加置信度最高的預測來擴展初始訓練數據。這種擴展迭代進行了幾次。近年來,在許多SRL研究(DoThi et al. 2016; Kaljahi & Samad 2010; Lee et al. 2007)中使用半監督的自訓練和協同訓練方法,並且它們展示出了在域內數據中的性能。在這些研究中,標準監督演算法被用作分類器,並由短語結構樹解析器提取特徵。

由Gildea和Jurafsky(2002)定義的短語結構樹解析的特徵在大多數SRL系統中被作為基本特徵。謂詞、短語類型、詞頭、短語結構樹解析路徑、短語位置和謂詞的語態都是一些基本特徵。他們提出使用句法分析是提取特徵的必要條件。

在英語的許多有監督的SRL系統中,一個角色標註語料庫與PropBank和FrameNet中的辭彙資源連在一起被用作訓練數據。所有動詞的語義角色和它們在賓州樹庫語料庫中的許多涵義都被標註在了PropBank語料庫中。比如Agent 和Patient的基本角色Arg0,Arg1, …, Arg5,並且附加的角色如時間和地點被賦予「ArgM」的標籤(ArgM-TMP, ArgM-LOC, …)。表一顯示了在PropBank中定義的基礎和附加的語義角色,以及與他們相關的問題類型。由於PropBank中的句子取自華爾街日報[WSJ],因此,在《華爾街日報》領域以外的監管分類器的效果有所下降。本文採用了以下幾種方法構建語義標註語料庫:直接標註、使用平行語料庫、使用半監督方法。Bootstrapping方法被Swier和Stevenson(2004)應用於常規領域的動詞標註。Pado和Lapata(2009)利用英語框架語義網的翻譯構建了另一種語言的相關語料庫。Monachesi et al. (2007)利用英語PropBank的半監督方法和翻譯來構建荷蘭語料庫。之後,標註者將標註的句子作為訓練語料庫在監督的方法中使用。

表1 PropBank的一些基本和附加的語義角色。

由於SRL系統的準確度在英語標註語料庫領域外顯著下降,因此在生物領域建立綜合辭彙資源將提高土耳其的生物文本的SRL系統。由於構建這類辭彙資源需耗費大量精力,我們將採用半自動化的方法,採用自訓練半監督的方法,並使用依存關係解析提取特徵。在本文中,我們將使用標準的監督方法(SVM、MaxEnt和NB)建立SRL系統來評估他們在土耳其語上的性能。

3 方法

在研究生物領域的自動問題生成之前,我們將構建一個語義標註語料庫和SRL系統。下面的部分將詳細描述我們提出的解決這些問題的方法。

3.1 語料庫建設

我們首先考慮生物學領域中的語義角色標註。為了解決這個問題,我們首先從不同的來源收集生物文本,比如文章、教科書等。文章和教科書將分別從「Journal of Biyolojik?e?itlilik ve Koruma」1和「Biyoloji ders kitab?9, 10, 11, 12」2摘取。之後,我們標記句子的詞性(POS)來識別謂語,然後用它們的謂詞結構(PAS)來創建辭彙庫。Kisla的工具(2009)被用來對句子進行標記和語形學分析。這些謂語通過它們在領域中出現的頻率和重要性被選擇。英文PropBank結構和指南被用作參考結構來標註土耳其語中的PAS。作為一項試點研究,我們從生物高等學校教科書中選擇了500個句子並且標記了他們的詞性。在識別謂詞之後,我們根據它們的出現頻率對它們進行排序。一些選定的謂詞和它們的PAS分別顯示在表2和表3中。

表2 一些選定的動詞

由於標註過程開銷很大,耗時很長,因此為解決這個問題,我們採用半自動、自訓練的方法創建語料庫。半監督方法的目的是在少量帶標註數據上學習,並使用大量未標註的數據來開發訓練數據。SRL分為三個步驟:謂詞識別、論元識別和論元分類。在第一步中,我們使用POS標記來識別謂詞,其涵義將由一些篩選規則來決定。在土耳其語中「-imek, etmek,eylemek, olmak ve k?lmak」(to do, make, render,to be)是對名詞性詞語起謂語角色關係的助動詞,稱作助動詞。當遇到這些動詞時,我們把這個動詞以及他們之前的詞語稱作謂語。例如,「」(被合成) (2 APT在底物水平上通過磷酸化合成。)」的謂詞。

為了完成參數識別,應使用下列規則來選擇候選論元:

l 如果它們與謂詞之間存在依賴關係,則將短語視為論元。

l 檢查存在的搭配作為候選論元。

請注意,這些假設將不會涵蓋所有的候選參數,但在本文中會有所改進。

表3 謂詞「sentez」(Synthesize)的語義角色標註

參數分類是通過自訓練來完成的。Yarowsky和Florian(2002)在1995年利用自訓練方法解決詞義消歧問題。Yarowsky的實驗結果表明,自訓練方法的性能幾乎和監督方法一樣高。我們的直覺是,通過使用自訓練方法,標註語義角色消耗的精力將大大減少。自訓練方法是按照以下步驟實施的。首先,使用專家手工標註的種子數據訓練分類器。在初始訓練步驟之後,使用更多的訓練數據,將所有未標記的數據進行分類,並選擇更多合適的數據來擴充種子數據,以提高分類器的性能。並使用了標準的機器學習分類器,SVM、MaxEnt和NB等方法進行自訓練。在我們的建議中,我們採取以下步驟選擇更準確的標註數據來擴大訓練數據:所有未標記的數據都使用三種不同的分類器進行分類。當其中的兩個在論元標註上達成一致時,分配的標註的概率高於預先設定的閾值,那麼這個標註被認為是正確的標註,並添加到初始訓練數據中。如果先前的條件不滿足,那麼選擇分配的概率最大並且高於預設的閾值的作為正確標註。半自動標註數據之後由標註員進行修正。

確定有效和適用的特徵在建立SRL系統中起著至關重要的作用。這些特徵是由句法或語義解析系統驅動的。在我們的方法中,我們將使用依存關係解析器來提取特徵。在我們的研究中,我們定義了表4所示的特性,以及由Gildea和Jurafsky(2002)定義的基本特性。為了提高SRL系統的性能,我們將研究更多特徵的效果,如命名實體NE和生物學術語。

3.2 問題自動生成

AQG的執行分為三個步驟:內容選擇(必須詢問句子的哪一部分),根據選定的內容和構造問題確定問題類型。在本文中,我們提出的SRL系統首先標記了陳述句。根據標記的角色,選擇內容和問題類型。在QG步驟中,應用了預先確定的模板和規則。我們計劃除自動生成模板外手動生成模板。「Niye ?(why

?)和「Ne zaman ?」(when

))是模板的例子。如果沒有合適的模板來生成問題,則應用基於規則的方法。在基於規則的方法中,土耳其語的問題結構被認為是一個形式問題。在第一步中,所選內容將從句子中刪除。然後,根據確定的語義角色來選擇問題類型。例如,如果語義角色標籤為Arg0,則使用「kim」(who)。在第三步中,所選內容將被疑問詞取代。最後,將檢查生成問題的語法。在QG階段,為了避免產生模糊的問題像「canl? da??l?m? i?in ne ?nemlidir?」(what is important forlive distribution?)從句子「Bu canl? da??l?m?i?in ?nemlidir.」 (This is important for live distribution.)。同時使用了一些過濾規則。舉個例子,以 「Bu, ?u, O」(this, that, it)不會認為是描述句生成的問題。此外,為了增加問題的複雜性,我們將使用短語的意譯。

4 評估

為了評估SRL系統,我們隊精確率、召回率、F1和準確率進行了計算。為評估整個系統的效果下列情況下將會被評估:

l 論元識別性能

l 當已知論元時,論元的分類性能

l 訓練數據在新聞領域而測試數據在生物學領域時系統性能,包括反過來的情況。

l 新聞和生物領域的自訓練方法的性能。

Rus at al. (2010)以參數、相關性、問題類型、語法的正確性和流暢性、歧義性和多樣性來評估生成的問題。所有的參數都在1和4之間,1是最好的分數,4是最差的分數。在本文中,我們將根據這些參數和將要定義的參數來評估生成的問題。「生成問題的教育意義」也可以成為這些參數之一。我們將請三位專家人工評估生成的問題。

5 結論

從教育學的角度來看,問題被用來評估學生對於老師講課的理解程度。因此,問題自動生成方法通過自動生成疑問句來減輕老師的負擔。此外,教學系統和問答都是一些可以從問題中受益的應用。

在本文中,我們提出了從描述句中生成問題的句法和語義方法。要做到這一點,需要採用一種三段方法。由於在語義方法中生成問題需要對句子進行語義分析,我們首先要構建一個生物領域的語義標註語料庫的辭彙語義資源。在第二階段,我們建立了一個SRL系統解析句子語義。最後,從句法上和語義上對描述性句子進行分析,以生成疑問句。這是第一次使用語義方法在土耳其語上進行AQG。生物學領域中的語義標註語料庫可以用於信息提取、問答和摘要等多種應用。研究生物語料庫的性能同時也鼓勵研究人員在化學、地理等其他領域將我們提出的方法轉換為語義語料庫。

表4 用於論元分類的特性。

論文下載鏈接:

http://www.aclweb.org/anthology/P/P17/P17-3014.pdf

留言 點贊 發個朋友圈

我們一起探討AI落地的最後一公里

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

搞AI?先了解AI流派如何「抬杠」再說!
ACL2017 SAP:關於將NLP研究轉化為商業產品所面臨的挑戰

TAG:讀芯術 |