ACL2017 波茨坦大學:生物醫學領域的問答系統應用Olelo介紹
你和「懂AI」之間,只差了一篇論文
很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。
為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。
同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。
這是讀芯術解讀的第3篇論文
ACL 2017 System Demonstrations
Olelo:一個生物醫學領域的問答系統應用
Olelo:AQuestion Answering Application for Biomedicine
波茨坦大學哈索?普拉特納研究所
Hasso Plattner Institute at University of Potsdam
【摘要】儘管生物醫學領域非常重要,但是很少有可靠的應用能夠支持研究人員和醫生檢索出符合他們需求的特定結果。用戶通常依賴於只支持關鍵字和基於過濾器的搜索。我們提出了一個生物醫學的問答(QA)系統Olelo。Olelo建立在內存資料庫之上,集成了領域資源,例如文檔集合和術語,並使用各種自然語言處理組件。Olelo速度快,直觀,易於使用。我們對兩種用例系統進行了評估:在BioASQ基準測試上基礎上,回答與某一特定基因相關的問題。
Olelo獲取地址:http://hpi.de/plattner/olelo
1 引言
生物醫學研究者和醫生定期查詢科學文獻以了解特定事實,如一種由特殊基因引起的綜合症,或某種疾病的治療方法。為了達到這個目的,用戶通常依賴PubMed搜索引擎,它在Medline資料庫中索引了數以百萬計的出版物。與傳統的信息檢索系統(IR)類似,輸入PubMed的通常是關鍵字,或者是醫學主題(MeSH)概念,而輸出的通常是文檔的列表。
例如,在尋找可能由CFTR基因突變引起的疾病時,用戶只需在PubMed的輸入欄中寫入基因名稱。在這個例子中,他將得到一個有9227份可能與其相關的出版物的清單(截至到2017年2月)。
在(Lu, 2011)的調查中,科學生物醫學文獻還有很多其他的網路應用程序可以搜索和導航。然而,大多數系統依賴於簡單的自然語言處理技術(NLP),例如分詞和命名實體識別(NER)。它們的功能僅限於在領域術語的支持下對文檔進行排序,以概念豐富出版物,並聚類相似文檔。
問答(QA)支持生物醫學專業人士通過輸入自然問題,並提供準確的答案和定製的簡短總結作為反饋結果(Athenikos and Han, 2010; Neves and Leser,2015)。我們已經了解了生物醫學的三個系統(參見第2節),然而,目前的解決方案仍然不能滿足用戶的需要:(i) 在大多數情況下,沒有對問題進行理解。(ii) 那些使用更複雜的NLP技術的系統(例如,HONQA(Cruchet et al., 2009))無法實時輸出答案。(iii) 輸出通常以文檔列表的形式出現,而不是簡單的答案。(iv) 他們沒有提供任何創新的或基於NLP的方法來進一步探索科學文獻。
我們提出了Olelo,一個生物醫學領域的問答(QA)系統。它索引生物醫學文摘和全文,依賴於一個快速的內存資料庫(IMDB)用於存儲和文檔索引,並執行各種自然語言處理技術(NLP)程序,如特定領域的命名實體識別(NER)、問題類型檢測、應答類型檢測和應答提取。我們評估了Olelo在BioASQ挑戰(Tsatsaronis et al., 2015)的範圍內的方法,這是生物醫學問答(QA)最廣泛的共享任務。我們參與了最後三個挑戰,並在最後兩個版本中獲得了片段檢索的最高結果和理想答案(定製摘要) (Neves, 2014, 2015; Schulze et al., 2016) 。
Olelo為上面列出的缺點提供了解決方案: (i) 它檢測問題類型和答案類型。(ii) 它包括各種NLP組件,並實時輸出答案。(見第5節)(iii) 它總是輸出一個簡短的回答,準確的答案或簡短的摘要,同時也允許用戶探索符合的文檔。(iv) 用戶可以瀏覽答案及其相應的語義類型,檢查醫學主題(MeSH)定義的術語,創建文檔集合,生成定製的摘要,並在其他任務中查詢類似文檔。最後,Olelo是一個開放訪問系統,不需要登錄。我們在多個Web瀏覽器中測試了它,但是為了獲得最佳結果我們推薦谷歌瀏覽器(Chrome)。
2 相關工作
MEDIE是第一個基於問答(QA)的生物醫學系統(Miyao et al., 2006)。它允許用戶以主賓動(SOV)結構的形式提出問題。例如,「53頁觸發了什麼?」這個問題需要被分裂成諸部分:「p53」(主語),「activate」(動詞),沒有賓語(即,預期的答案)。MEDIE依賴於領域本體、解析和預測參數結構(PAS)來搜索Medline。然而,鑒於許多生物醫學用戶對語言學沒有高級知識,SOV結構並不是一個友好的輸入。
我們知道三個其他的生物醫學問答(QA)系統:AskHermes, EAGLi和HONQA。所有這些系統都支持以問題形式的輸入,但以不同的方式輸出結果。
AskHermes(Cao et al., 2011)輸出了一些代碼片段和一系列術語,但結果頁面往往太長。他們的方法包括對問題理解的正則表達式、問題目標分類、概念識別和基於BM25模型的通道排名。文件收集包括Medline文章和維基百科文檔。
EAGLi(Gobeill et al.,2015)提供了基於基因本體(GO)概念的答案。即使沒有找到問題的答案,EAGLi總是會輸出相關的出版物列表。它在Terrier IR平台上對Medline文檔進行索引,並使用Okapi BM25進行排序文檔。
HONQA(Cruchet et al.,2009)從健康在線(HON)上考慮認證網站的文件,除英語外,還支持法語和義大利語。答案類型檢測基於UMLS資料庫,系統的架構遵循典型的問答(QA)工作流。然而,在他們的出版物中沒有詳細描述。
3 系統架構
圖1 Olelo問答系統的自然語言處理組件
Olelo的架構遵循了問答(QA)系統(Athenikos and Han, 2010)的通常組成部分,即:文檔索引、問題處理、段落檢索和應答處理(見圖1)。在本節中,我們將簡要介紹這些組件中的許多任務。我們之前發表了我們的多文檔摘要的方法(Schulze and Neves, 2016),我們不僅應用於生物醫學QA,也適用於特定於基因的摘要。最後,我們對BioASQ挑戰的參與也為我們系統的方法提供了見解(Neves, 2014, 2015; Schulze et al., 2016)。
文獻索引: 我們將文檔集合和問題索引為IMDB(Plattner,2013),即SAP HANA資料庫。該資料庫將數據存儲在主內存中,並包括在線QA系統的其他理想特性,如多核處理、並行化、輕量級壓縮和分區。我們的文檔集合目前由來自Medline和PubMed中心開放存取子集的全文出版物組成。文件收集定期更新,以解釋新的出版物。
當在資料庫中建立索引時,文檔和問題將使用IMDB內置的文本分析程序進行處理,即句子拆分、分詞、詞幹提取、詞性(POS)標記和指定實體識別(NER)(見表1)。
表1 有關文件、句子和命名實體的統計數據(截止到2017年2月)
我們編寫基於兩個領域資源:醫學主題標題(MeSH)和統一的醫學語言系統(UMLS),後者是基於生物醫學領域的定製詞典。
問題處理: Olelo目前支持三種類型的問題:(i)模擬陳述;(2)定義;(3)總結。一個模擬陳述問題需要一個或多個簡短的回答,如疾病名稱列表、定義問題查詢,以及一個概念的特定定義,而摘要問題則是關於一個主題的簡短摘要。這個步驟中的組件包括通過簡單的正則表達式檢測問題類型,然後在模擬陳述問題的情況下檢測答案類型。這一步驟還包括通過正則表達式來檢測詞目,並在之前檢測到的命名實體的支持下識別其語義類型。語義類型對應於UMLS語義類型定義的語義類型(Bodenreider,2004)。最後,基於標記的表面形式,以及之前檢測到的醫學主題(MeSH)和UMLS術語構建了一個查詢。
段落檢索: 該系統根據IMDB的內置特性對文檔和段落進行排序。它以近似的方式將查詢中的關鍵字與文檔匹配,包括語言變體。我們首先考慮查詢中的所有關鍵字,如果沒有找到匹配的文檔,我們將刪除其中一些關鍵字。
答案處理: 答案取決於問題類型。在定義問題的情況下,系統簡單地顯示了相應的醫學主題(MeSH)項和它的定義,最初包括在醫學主題(MeSH)術語中。在模擬陳述問題的情況下,Olelo返回的醫學主題(MeSH)術語屬於先前檢測到的相應的語義類型。最後,系統根據檢索到的文檔和查詢對摘要問題構建一個自定義摘要。
4 用例
在本節中,我們將展示兩個獲取特定問題的精確答案的用例。這些例子包括一個與特定基因有關的問題,以及兩個來自BioASQ基準的問題。同樣將我們的系統與其他三個生物醫學問答(QA)應用做了一個初步比較。
Olelo中的「教程」頁面包含了更多關於系統功能的細節。可以在「設置」頁面上設置一些參數,比如最小的發布年份摘要(根據句子的數量,默認值是5)和生成摘要時考慮的文檔數量(默認值為20)。
基因相關問題: 這個用例關注的是基因CFTR,這是一個在Twitter上通過基因組合資料庫#GeneOfTheWeek活動推廣中的一個選擇。基因突變是導致疾病的常見原因,因此,用戶可以向Olelo提出以下問題:「CFTR基因突變與哪些疾病有關?」Olelo給出了一個關於這個問題的潛在答案的列表(見圖2),的確,「囊性纖維化」與所提到的基因有關。通過點擊「囊性纖維化」,可以看到MeSH的定義,Olelo告訴我們找到了349份相關文檔(底部的藍色按鈕)。點擊這個按鈕會顯示一個文檔並且這的確是相關的,因為我們可以通過閱讀它的第一個摘要來確認。在這一點上,用戶有很多方法可以在主題上進一步導航,例如:(a)瀏覽其餘的文件; (b) 為這個文檔集合創建一個摘要;(c)點擊「藍色」的術語來了解更多的信息;(d)在出版物上看到完整的細節(除了標題之外的小圖標);(e)瀏覽列出的囊性纖維化的語義類型;或(f) 點擊另一個疾病名稱,即「哮喘」。
BioASQ基準問題: 目前,BioASQ(Tsatsaroniset al., 2015)是生物醫學問答(QA)系統最全面的基準。我們選擇了一個摘要和一個模擬陳述問題來說明Olelo為不同的問題類型返回的結果。「巴氏小體是什麼?」(標識符55152c0a46478f2f2c000004),系統返回一個簡短的摘要,它的第一個句子確實包含了這個問題的答案:「巴氏小體是一個女性體細胞中的不活躍的X染色體。」(PubMed中第21416650個文章)。另一方面,對於factoid問題,「在文獻中與ArnoldChiari綜合症有關聯的染色體」。Olelo給出了一個染色體名稱的列表。實際上,以下是BioASQ基準測試的官方答案:「1」,「3」,「5」,「6」,「8」,「9」,「12」,「13」,「15」,「16」,「18」,「22」,「X」,「Y」。對於這個特殊的例子,Olelo輸出的是比BioASQ更全面的答案,因為醫學主題(MeSH)術語包括單詞「chomosome」。
初步評估: 我們最近將Olelo與另外三種生物醫學問答(QA)系統(見第2節)進行了比較,通過人工隨機抽取10個來自BioASQ的模擬陳述問題。我們人工記錄了每個系統的響應時間,並在我們研究所的網路之外進行了實驗。由於系統中出現了錯誤,HONQA沒有提供任何問題的結果。Olelo找到了四個問題的正確答案(在返回的摘要中),EAGLi對其中的兩個問題(在返回的文檔的標題中),並詢問了其中一個(在許多返回的句子中)。在響應時間上,Olelo是最快的(平均為8.8秒),其次是AskHermes(平均10.1秒)和EAGLi(平均58.6秒)。
5 結論和未來工作
我們展示了生物醫學領域的Olele問答(QA)系統。Olelo依靠內置的自然語言處理(NLP)程序對各種問答(QA)組件進行內存資料庫和SQL過程,例如多文檔匯總和應答類型檢測。我們已經展示了Olelo在獲取某一特定基因的信息,以及從BioASQ基準測試兩個問題的答案時所提供的輸出示例。
然而,Olelo背後的方法仍然有改進的餘地:(a)系統並不總是正確地檢測出事實問題,因為它使用的簡單規則用於問題類型檢測。在這些情況下,Olelo從相應的相關文檔生成一個簡短的摘要(b)答案僅限於現有的醫學主題(MeSH)詞,這也支持我們的系統進行進一步的導航(見圖2和圖3)。事實上,我們的實驗表明,我們無法為許多期待一個基因或蛋白質名稱的問題提供答案,它們都在醫學主題(MeSH)中得到了微弱的支持,但在BioASQ(Nevesand Kraus, 2016)中卻很常見。(c)我們的文檔和段落檢索組件目前依賴分詞和命名實體的近似匹配,但不考慮像TF-IDF這樣的最先進的IR方法。(d)屬於總結的句子可以被更好的安排。總結的流暢性不是最佳的。並且我們不處理相關的內容,比如代詞(如「我們」)在原句中經常出現。然而,與其他生物醫學QA系統相比,Olelo的執行速度更快,並為大多數問題提供了集中的答案,而不是一長串的文檔。
最後,為進一步探索生物醫學文獻提供了手段。
圖2 由CFTR基因(在左邊)引起的答案列表,以及包含答案的相關出版物的概述(在右邊)
圖3 從BioASQ數據集的一個簡單的問題(左邊)和答案列表(在右邊)的簡短段落
Olelo正處於長期發展中,已經在多個層面上實施了改進: (a)整合更高級的自然語言處理(NLP)組件,如組塊和語義角色標記; (b)支持yes / no問題,並改進基於深度學習的確切答案; (c)將額外的生物醫學文件納入其中,例如臨床試驗,以及其他語言的文件。
最後,在它的當前狀態下,我們對新領域方法的適應不需要大的改變。在問題處理步驟(依賴於特定的本體)以及為指定實體識別(NER)組件創建新字典時,需要進行細微的更改。綜上所述,本系統的適應主要包括新文件集合和特定術語的集成。
論文下載鏈接:
http://www.aclweb.org/anthology/P/P17/P17-4011.pdf
留言 點贊 發個朋友圈
我們一起探討AI落地的最後一公
※今日芯聲:人不如機系列:你還想上天嗎?
※今日芯聲:超逼真的AI小姐姐,原型是誰?
TAG:讀芯術 |