基於置信度的知識圖譜表示學習框架

最新 02-26

作者丨謝若冰

單位丨騰訊微信搜索應用部

研究方向丨知識表示學習

知識圖譜被廣泛地用來描述世界上的實體和實體之間的關係，一般使用三元組（h,r,t）（head entity, relation, trail entity）的形式來存儲知識，其中蘊含的知識數量巨大且時常更新。

目前，人工標註已經不能滿足知識圖譜更新和增長的速度，但自動化構建知識圖譜的過程中往往容易引入一些雜訊和衝突。

由於大多數傳統知識表示學習（Knowledge, Representation Learning, KRL）方法都假設現有知識圖譜中的知識是完全正確的，因此會帶來潛在誤差。

於是，如何從帶有雜訊或衝突的知識圖譜中學習到更好的知識表示向量，同時又能夠發現已有知識圖譜中可能存在的錯誤，就成為了亟需解決的問題。

來自清華大學/騰訊的謝若冰研究員，清華大學的劉知遠老師，騰訊的林芬研究員和林樂宇研究員，在即將發表於 AAAI 2018 的論文《Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence》中，提出了一種新的基於置信度的知識表示學習框架（confidence-aware KRL framework，CKRL），能夠發現知識圖譜中潛在的雜訊或衝突，同時更好地從中學習知識表示。

作者在 CKRL 模型中主要參考了 TransE 的思路，使用了平移假設（translation-based assumption），並增加了三元組置信度（triple confidence）的概念。整體能量方程如下：

其中，基於平移假設，有：

對於 triple confidence，作者設計了三種模式，分別是 Local Triple Confidence，Prior Path Confidence 以及 Adaptive Path Confidence，基於平移假設，使用三元組的實體、關係，以及實體之間的路徑的向量信息，綜合對三元組的置信度進行動態調整與學習。

具體地，對於使用 path 的置信度，作者假設如果 (h,r,t) 中 h,t 有越多包含較多信息流的路徑，並且這些路徑的向量表示與 r 越相似，那麼 (h,r,t) 三元組的置信度越高。

整個訓練過程中，知識表示和三元組的置信度在能量函數指導下相互影響並動態優化，最終得到考慮置信度的知識表示，並能基於此知識表示完成知識表示學習和知識圖譜雜訊探測等任務。

在學習的過程中，作者使用了 margin-base score function 進行學習，希望正例得分能夠高於負例得分。需要注意的是，由於作者使用的是三元組的向量信息，所以三元組的置信度會在訓練過程中發生動態變化。

低置信度的三元組在學習中會相應收到打壓，最終使得帶有雜訊的知識圖譜中的知識表示向量能夠學得更好，同時減少雜訊和錯誤帶來的影響。

CKRL 模型在 noise detection、knowledge graph completion 和 triple classificaiton 三個任務上都取得了較好的結果，同時該模型的思想還可以直接擴展至知識構建環節中，在自動構建方法情境下，幫助建立更加精準的知識圖譜。

作者的話

本文是作者在清華大學碩士期間以及在騰訊微信搜索應用部期間完成的工作，在知識表示學習框架中引入了基於結構信息的置信度的概念，能夠同時提升知識表示學習和知識圖譜雜訊探測的效果。

作者之前的多篇工作致力於融合多源信息提升知識表示性能，但在知識驅動的實際任務中也存在很多諸如雜訊等現實問題。本次工作即是在知識圖譜置信度上的一次初步探索，相關思路也可以引入知識構建等知識工程其它環節。

#榜單公布#

我是彩蛋

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域，歡迎在公眾號後台點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 PaperWeekly 的精彩文章:

※用好這幾款煉丹利器，調參從此得心應手
※再來一頓賀歲宴

TAG:PaperWeekly |