事理圖譜:事件演化的規律和模式
本文作者為哈工大SCIR實驗室丁效,李忠陽,劉挺,雷鋒網獲權轉載。
打開今日頭條,查看更多圖片2016年7月,哈工大社會計算與信息檢索研究中心(HIT-SCIR)開始啟動事理圖譜的研究工作。2017年10月,研究中心主任劉挺教授在中國計算機大會(CNCC)上正式提出事理圖譜的概念。2018年9月,在研究中心丁效老師的主持下,研製出中文金融事理圖譜1.0版本,2019年7月更新為2.0版。本文是對2016年7月以來工作的最新總結,敬請各位同行指正。
引言事件是人類社會的核心概念之一,人們的社會活動往往是事件驅動的。事件之間在時間、空間上相繼發生的演化規律和模式是一種十分有價值的知識。然而,現有的典型知識圖譜均以實體及其屬性和關係為研究核心,缺乏對事理邏輯這一重要人類知識的刻畫。為了彌補這一不足,事理圖譜應運而生,它能夠揭示事件的演化規律和發展邏輯,刻畫和記錄人類行為活動。在圖結構上,事理圖譜是一個有向有環圖,其中節點表示事件,有向邊表示事件之間的演化關係。現實世界中事件演化規律的複雜性決定了我們必須採用這種複雜的圖結構。本質上,事理圖譜是一個事理邏輯知識庫,描述了事件之間的演化規律和模式。
1. 研究背景及意義隨著深度學習的興起,人工智慧迎來了新的發展高潮。人工智慧的一個發展瓶頸在於,如何讓機器掌握人類知識。例如,人類能輕易理解「吃過飯」後,就「不餓」了這樣的常識知識,而讓機器理解並掌握大量這樣的知識是一件極其困難的事情,而這也是通往強人工智慧的必由之路。在眾多類型的人類知識中,事理邏輯是一種非常重要且普遍存在的知識。
許多人工智慧應用依賴於對事理邏輯知識的深刻理解。以隱式消費意圖識別以及隱式情感分析為例,只有讓機器知道「結婚」事件伴隨著後續一系列消費事件,例如「買房子」、「買汽車」和「去旅行」,我們才能在觀察到「結婚」事件的時候,準確地識別出用戶潛在的隱式消費意圖,進而向目標用戶做出精準的產品推薦。只有讓機器掌握「考試不及格」會引起「情緒低落」這樣的常識事理,才能從顯式事件當中挖掘出用戶背後的隱式情感。現有的對話生成系統大多從大規模對話語料中以最大似然估計進行訓練。然而人類對話的語義和語境是複雜多變的,這樣得到的對話系統很難深入理解對話上下文的前因後果,而只是對訓練語料中特定問答模式的記憶。只有讓機器理解了「吃過飯」之後「人不餓了」,「看電影」之前要「先買票」這樣的常識事理,對話系統才能根據不同的問答語境,做出更加智能的回復。股市一般伴隨著短期內隨機的小波動,以及長期內重大事件驅動的大波動。例如,近來隨著人工智慧迎來發展高潮,以及「國家將人工智慧列為國家發展戰略」,科大訊飛等人工智慧企業股價迎來了一波大漲。事件驅動的股市預測悄然興起。從金融文本中挖掘「糧食減產」導致「農產品價格上漲」,再導致「通脹」,進而導致「股市下跌」這樣的遠距離事件依賴,對於事件驅動的股市漲跌預測非常有價值。事理邏輯知識的挖掘與知識庫構建迫在眉睫,這將極大地推動多項人工智慧應用的發展。
事件是人類社會的核心概念之一,人們的社會活動往往是事件驅動的。事件之間在時間上相繼發生的演化規律和模式是一種十分有價值的知識,挖掘這種事理邏輯知識對我們認識人類行為和社會發展變化規律非常有意義。然而,當前無論是知識圖譜還是語義網路等知識庫的核心研究對象都不是事件。儘管傳統知識圖譜在現代搜索引擎中(例如Google、Bing、Baidu等商業搜索引擎)得到了廣泛應用,但是其聚焦於實體和實體之間的關係,缺乏對事理邏輯知識的挖掘。我們認為事理邏輯知識,包括事件之間的順承、因果、條件和上下位等關係,對於人工智慧領域的多種任務具有非常巨大的價值。為了揭示事件的演化規律和發展模式,我們提出了事理圖譜的概念,旨在將事件的演化規律和模式構建成一個有向圖形式的事理知識庫,用於刻畫和記錄人類行為活動和事件客觀演化規律。
2. 事理圖譜的定義事理圖譜(Event Logic Graph,縮寫ELG)是一個事理邏輯知識庫,描述了事件之間的演化規律和模式。結構上,事理圖譜是一個有向有環圖,其中節點代表事件,有向邊代表事件之間的順承、因果、條件和上下位等事理邏輯關係。
理論上,事理圖譜中的事件是具有一定抽象程度的泛化事件。表示為抽象、語義完備的謂詞短語或句子,也可以表示為可變長度的、結構化的(主體、事件詞、客體)多元組,其中必然包含一個事件詞,標誌事件的發生,例如:「跑步」,而事件的主體和客體都可以在不同的應用場景下被省略,例如:「(元首,出訪)」可以省略事件的客體,「(購買,機票)」可以省略事件的主體。一般情況下,事件以及事件的抽象程度與該事件發生的場景緊密關聯在一起,脫離了具體的場景,一個單獨的事件可能變得過度抽象而難以理解。
例如,雖然脫離了具體的場景,但「吃火鍋」, 「看電影」, 「去機場」,「地震」 仍是合理的事件表達;但「做事情」,「吃」等事件由於過度抽象,屬於不合理或不完整的事件表達。事件詞可以是動詞或名詞,但是絕大多數事件都是動詞觸發的。其中,按動詞的內容意義進行劃分,可將事件分為動作類事件、狀態類事件、關係類事件與能願類事件四個大類。
2.1 事理圖譜中的事件關係類型我們認為,現實世界中有四種事理邏輯關係特別重要,也是我們提出的事理圖譜中主要關注的事理邏輯關係,包括事件之間的順承關係、因果關係、條件關係和上下位關係。
順承關係是指兩個事件在時間上相繼發生的偏序關係。我們借鑒TimeML時序關係類別中的before和after偏序關係,在事理圖譜中的順承關係包括兩種情況:一種情況是順承的前序事件a結束後,後序事件b緊接著發生;另一種情況是前序事件a結束後,隔一段時間後序事件b才會發生,具體如圖1所示。兩個前後順承的事件之間存在一個介於0到1之間的轉移概率,表示從一個事件按時序順承關係演化到下一事件的置信度。
圖1 兩種順承關係示例
因果關係是指兩個事件之間,前一事件(原因)的發生導致後一事件(結果)的發生。在事理圖譜中,因果關係滿足原因事件在前,結果事件在後的時間上的偏序關係,因此在一定意義上,可以認為因果關係是順承關係的子集。因果事件對之間存在一個介於0到1之間的因果強度值,表示該因果關係成立的置信度。
條件關係是指前一個事件是後一個事件發生的條件。條件關係屬於思想中命題的某種邏輯關係,因果關係屬於對客觀事實的某種認識,我們認為「原因≠理由」,「原因」指的是事件之間的因果關係,是關於事實的,「理由」是前提與結論或論據與論點的內在聯繫,是關於邏輯的。舉例來說,「如果買票的人多,那麼電影好看」這一條件是成立的,而「因為買票的人多,所以電影好看」這一因果是不成立的。
上下位關係:事件之間的上下位關係有兩種:名詞性上下位關係和動詞性上下位關係。例如,事件「食品價格上漲」與「蔬菜價格上漲」構成名詞性上下位關係;事件「殺害」與「刺殺」互為動詞性上下位關係。需要注意的是,上下位關係一般是沒有疑義的確定知識,因此可認為該類關係的置信度為常數1或0,即表示該知識是正確的或者是錯誤的。
2.2 事理圖譜中的事件屬性事理圖譜除了關注事件之間的事理邏輯關係外,還關注事件自身的屬性。事件屬性用來描述事件發生的程度、持續時間等。在進行推理時,事件屬性會起到非常重要的作用,例如,從金融文本中可以抽取到「貨幣超發」會導致「匯率貶值」,「匯率貶值」又會導致「貨幣緊縮」,而實際上「貨幣持續超發」才會導致「匯率貶值」,而「匯率大幅貶值」才會導致「貨幣緊縮」,這裡面「持續」和「大幅」作為事件的屬性,可以影響到事件未來的走勢情況。此外,「股票下跌/上漲」的百分比也是事件重要的屬性,股票上漲0.1%和上漲10%對未來事件的影響是有非常明顯的區別的。
3. 事理圖譜與知識圖譜的關係「知識圖譜」這一術語有兩層含義。如果認為「知識圖譜」表示廣義上的知識庫,是一種用以存儲知識的本體的話,那麼「事理圖譜」可以認為是一種存儲事理邏輯關係的「知識圖譜」;如果認為「知識圖譜」特指狹義上現階段谷歌、百度所構建的以實體為中心、用於提升用戶搜索體驗的知識庫,以及Freebase、 YAGO、 DBpedia、ConceptNet和微軟的Concept Graph等產品的話,那麼「事理圖譜」便是與「知識圖譜」相併列的一種新型常識知識庫。
事理圖譜與傳統知識圖譜有本質上的不同。如表1所示,事理圖譜以事件為核心研究對象,有向邊表示事理邏輯關係,即順承、因果、條件和上下位;邊上標註有概率信息說明事理圖譜是一種事件間相繼發生可能性的刻畫,不是確定性關係。而知識圖譜以實體為核心研究對象,實體屬性以及實體間關係種類往往成千上萬。知識圖譜以客觀真實性為目標,某一條屬性或關係要麼成立,要麼不成立。
4. 事理圖譜的構建4.1 基本技術原理事理圖譜課題主要研究從大規模無結構化(或者結構化、半結構化)文本數據中自動獲取事理邏輯知識,並將這些知識組織成有向有環圖結構,用以描述事件之間的演化規律和模式。這樣的知識庫我們稱之為「事理圖譜」。
事理圖譜項目包含「構建」、「推理」和「應用」三個關鍵技術點:
(1) 事理圖譜的構建
事理圖譜的構建主要用到以下具體的自然語言處理技術:事件定義、開放域或限定域事件抽取,事理關係抽取(包含事件順承、因果、上下位關係抽取等),事理關係置信強度計算,事件相似度計算,事件抽象與泛化等。
(2) 事理圖譜的推理
事理圖譜的推理可以用於事件及關係的補全,主要涉及到的技術有:結構化事件表示學習,短語級、句子級事件表示學習,事理圖譜圖結構上的圖神經網路技術等。
(3) 事理圖譜的應用
事理圖譜的應用是指將構建好的事理圖譜用於下游任務,例如消費意圖識別和商品推薦、對話系統回復生成、股市漲跌預測、未來事件預測等,幫助提升具體任務的效果。此階段用到的技術主要有:事理圖譜的存儲與查詢(事件的搜索與匹配),事件表示學習,事理圖譜表示學習等。
4.2 主要技術領域及當前發展熱點與事理圖譜項目密切相關的技術領域主要包含以下幾個方面:
(1) 常識知識庫資源構建
傳統的常識知識庫資源構建主要圍繞實體及其關係展開。2012年谷歌成功將大規模知識圖譜商業化,顯著改善了搜索結果的呈現方式,並提升了搜索引擎的用戶體驗。之後以實體為中心的知識圖譜獲得了長足的發展以及廣泛的應用。時至今日,知識圖譜仍然是學術界的一個發展熱點。知識圖譜上的知識表示學習、實體鏈接、實體消歧、知識圖譜補全等等研究方向仍然是當下研究的熱點問題。
然而,已有研究者注意到事件常識的重要性,部分最新的研究工作開始研究以事件為中心的常識知識庫構建。
(2) 統計腳本學習
給出多個事件組成的上文,統計腳本學習研究下一個可能發生的事件是什麼,可以認為是建模事件預測的能力。
傳統方法多在無監督抽取的結構化事件鏈條上進行模型的搭建,這條技術路線仍然在發展當中,不斷有新的模型湧現;最近,學者們提出故事結尾預測的評估方式,是對傳統評估方法的進一步完善。
(3) 事件順承關係抽取
由於語料標註的限制,事件時序關係抽取研究進展相當緩慢。雖然曾經連續舉辦多個技術評測,推動了該技術的發展,但是進步仍然十分有限。最近,時序關係抽取重新引起了學者的研究興趣,有許多相關研究發表。從預料的構建,識別方法的改進等多個方面繼續推動該研究走向使用階段。目前,已有開放域的時序關係抽取系統發布。
(4) 事件因果關係抽取
文本中的因果關係抽取一直是一個難點。雖然學者們提出了許多方法,但是仍以因果模板匹配的方法抽取精確度最好。模板匹配的缺點在於召回率難以保證,許多有價值的因果關係無法召回。目前,高效準確的因果關係抽取方法仍然是一個難點及研究熱點。
(5) 知識表示學習與網路表示學習
知識表示學習是指將知識圖譜中的實體及關係映射到低維稠密向量,進而可以更加方便地用於後續任務當中。網路表示學習的研究對象不僅僅包含知識圖譜這種網路,而是更廣義上的網路。這兩個研究方向都是當下研究的熱點問題,屬於事理圖譜應用階段的實用技術。
5. 金融事理圖譜V2.0版本發布2018年9月10日,HIT-SCIR正式對外發布金融事理圖譜V1.0版本,經過近10個月的潛心研發,HIT-SCIR推出金融事理圖譜V2.0版本,相對於V1.0版本,V2.0版本進行了如下的改進。
金融事理圖譜V2.0版本擴充了數據源,擴大了數據規模,增加了事件節點數量以及因果關係數量,同時增加了事件上下位關係以及抽象事件和抽象因果關係,採用基於BERT+CRF的方法將因果關係抽取的F值由原來的59.54%提升到了85.12%。
結束語
知識圖譜在各個領域精耕細作,逐漸顯露價值。知識表示形式有待突破,推理能力有待提高。統計腳本學習和事件關係識別等事理圖譜相關研究越來越吸引研究者關注。以「謂詞性短語」為節點,以事件演化(順承、因果、上下位等關係)為邊的事理圖譜方興未艾。事理圖譜必將在預測、對話等領域發揮重要作用,有力地提升人工智慧系統的可解釋性。
詳細論文請參考:https://arxiv.org/pdf/1907.08015.pdf
※出現這十種癥狀,說明你編程前景黯淡
※L3自動駕駛量產在即,《2019 智能駕駛高精度地圖行業研究報告》正式上線
TAG:雷鋒網 |