淺談知識圖譜

最新 03-16

數字化協會理事顧問

廣州佰聆數據顧問有限公司解決方案經理

大家好，我是中國數字化協會的理事顧問，鄭午。今天與大家淺談一下-知識圖譜。

知識圖譜最早是谷歌在2012年推出的一個知識庫，谷歌用這個知識庫支持它新一代的搜索引擎。簡單來說，知識圖譜是由一些相互連接的實體，和它們的屬性共同構成的。其中每一條知識都可以表示為一個SPO三元組，SPO是英文（Subject， Predicate， Object）的首字母縮寫，翻譯成中文可以理解為：（實體一，謂詞，實體二）。這個謂詞定義了實體一與實體二之間的關係。舉個例子，特朗普是美國總統。對於這麼一條知識來說，若表示成SPO三元組的話，實體一就是特朗普，謂詞是職位，實體二是美國總統。那麼這個三元組就表示了特朗普與美國總統之間的關係。同樣的，對另外一條知識，如特朗普的女兒是伊萬卡來說，表示成三元組的話，實體一就是特朗普，謂詞是女兒，實體二就是伊萬卡，那麼它就表示了特朗普和伊萬卡之間的關係。

在一個領域內，會有許許多多的知識，可表示為許許多多的三元組，這些三元組互相連接起來，就形成了一個巨大的網路。如果用「圖」這種數據結構來表示的話，那麼「圖」的頂點，就是這個領域內的實體，「圖」的邊則是謂詞，也就是定義了兩個實體之間的關係，這個就是知識圖譜簡單的數據模型。知識圖譜對搜索引擎的提高作用巨大。在知識圖譜出現以前，搜索引擎是將用戶輸入的關鍵詞作為字元串來處理的。其基本做法是，從索引的網頁中找出所有包含用戶輸入的關鍵詞的網頁，然後用PageRank演算法進行排序，再將排序結果返回給用戶。其實搜索引擎就是將字元串進行匹配，並沒有真正的去解答用戶關於某個實體的真正需求。

有了知識圖譜之後，搜索引擎就可以嘗試去解讀用戶輸入的關鍵詞背後的真正實體是什麼。比如說，有一個人輸入了一組關鍵詞：美國總統女兒的老公。用知識圖譜的話，搜索引擎就會在知識圖譜中查找，知道現任的美國總統是特朗普，從特朗普這個實體節點出發，通過女兒這個謂詞關係，就可以找出伊萬卡，她是美國總統特朗普的女兒。再從伊萬卡這個實體節點出發，順著丈夫這條謂詞關係，就可以找到庫什納。這時搜索引擎就會知道，用戶輸入的關鍵詞背後，其實是想知道庫什納的信息。這樣，搜索引擎就可以將關於庫什納的信息的網頁反饋給用戶，而不僅僅是做關鍵詞的匹配。所以谷歌在推出知識圖譜時，所用的廣告語是：「Things not strings」，翻譯成中文就是：事物而不是字元串。簡單來說，谷歌認為有了知識圖譜之後，搜索引擎處理的就不再是字元串的匹配了，而是真正的能夠解答用戶對於某個事物的信息需求。

知識圖譜這個詞是谷歌首先提出的，但是這個技術卻不是新發明的技術。知識圖譜的技術源頭甚至可以追溯至20世紀50年代，在那個時候，計算機科學家就提出了「語義網路」-semantic network數據模型，這個數據模型就是用三元組去描述概念之間的關係，這就與現在的知識圖譜所做的是非常類似的。

在21世紀初，互聯網之父Tim Berners-Lee提出「語義網」（Semantic Web）的概念，這也是他認為的下一代互聯網的模型。Semantic Web 語義網的一個重要的組成部分是對於資源的描述這部分，它使用的技術叫做本體（Ontology），這個本體也是使用三元組來描述概念之間的關係。針對本體這項技術，互聯網的技術標準機構——萬維網聯盟，也就是W3C，發布了一個用於描述實體或者資源的標準數據模型-RDF（Resource Description Framework）。而現在，RDF也被用於記錄知識圖譜中-知識的數據模型。知識圖譜實際上是對「本體」這種知識組織技術的豐富和擴充。

在進入2000年後的幾年間，「本體」是一個非常火熱的技術概念。在各個不同的領域，大家都在用「本體」來組建自己的知識庫，比較著名的「本體」有：Freebase，YAGO，它們是從維基百科中提取信息組建的知識庫。在生物領域，比較著名的「本體」是：Gene Ontology，它是關於基因的知識庫，在生命科學領域有著至關重要的作用。比較有意思的是，Freebase、YAGO這兩個知識庫是跨越了「本體」火熱的年代，而且一直留存至「知識圖譜」火熱的年代。在「本體」比較火的時候，它們將自己稱為「本體」；而到了「知識圖譜」火熱的時候，它們又稱自己為「知識圖譜」。這也可以看出，在本質上「本體」與「知識圖譜」是非常相似的。

那麼知識圖譜到底有什麼用呢？其中一個最直接，也是目前最廣泛的應用就是用於搜索，也就是前文的闡述，在這裡不重複了。現在的絕大多數的搜索引擎，包括谷歌、百度等等，他們都是使用了知識圖譜的技術。還有一個應用，跟搜索類似，是用於問答機器人，可以用知識圖譜來組織問答機器人所使用的知識庫，通過知識圖譜可以做些簡單的推理，能夠使問答機器人變得更加智能。還有一些比較特別的應用，比如說可以做金融的反欺詐。一些有組織的詐騙團伙，他們會使用大量的虛假身份，再結合真實的信息去申請貸款，那麼對於這樣的有組織的欺詐行為，識別難度會比較大。但是呢，詐騙團伙申請貸款時，使用的信息是有重複的，那麼用知識圖譜來表示申請人的信息，就會比較容易發現，在使用虛假身份申請時共享的一些信息，從而發現潛在的欺詐風險。

由於時間有限，今天只為大家簡單介紹了知識圖譜，（它的）技術和一些潛在的應用，大家有興趣可以留言交流，謝謝大家。

數字化協會介紹：

由華為公司牽頭髮起，協會成員包括參數技術公司（PTC）、埃森哲、中國電子、海信、華大基因、軟通動力、音智達、佰聆數據、數智互聯、達能飲料、華訊投資、特步、奧飛娛樂等企業。協會旨推進社會及企業數字化轉型，更好服務企業數字化轉型建設服務。

數字化協會將會在數字化轉型標準制定、數字化轉型戰略規劃、數字化轉型技能發展與培訓、數字化轉型領軍人才培育等方面發揮巨大作用。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 PPV課大數據 的精彩文章:

※TensorFlow和深度學習入門教程

TAG:PPV課大數據 |