從專家系統到大數據知識工程，「千人計劃」專家吳信東如何為數據冠以知識

知識 10-09

機器之心原創

作者：思

近日，機器之心採訪了明略數據首席科學家、科學院院長吳信東教授，吳教授一直專註於知識工程方面的研究，並從專家系統到大數據時代經歷了技術的變遷與發展。在本文中，我們將著重介紹專家系統及大數據環境下的知識工程，它們的共性是從專家或數據中提取知識，並用於進一步的推理與預測。吳信東教授在 10 月 15 到 16 號的 AIIA 人工智慧者開發大會將會更詳細地介紹大數據知識工程。

吳信東教授是國家「千人計劃」特聘專家、長江學者、IEEE & AAAS Fellow，他早期關注於專家系統，也就是知識工程的應用實踐。而隨著機器學習與大數據的流行，他領導的科技部重點研發項目 BigKE 將「大數據」引入了「大知識」。整體而言，大數據知識工程（BigKE）也就是從多種異構數據源抽取碎片化的知識，並將這些知識融合為整體以提供進一步的知識服務。

專家系統

專家系統，即從領域專家獲取知識，並將這種知識遷移到計算機系統以自動實現某些專家能力求解的功能。對於基於專家系統的知識工程，其可以定義成為對應用問題求解所進行的知識的獲取、表達和推理。它主要包含三階段，首先知識的獲取就需要與領域專家交流，並獲取專家在該領域解決特定問題的知識。其次需要將獲取的知識表達出來，這一般是形式化的表達，例如用邏輯表示和知識圖譜表示等。最後需要基於這種表示對問題進行求解，也就是進行知識推理。

吳信東教授表示目前其實還有很多解決方案在實踐中會使用專家系統，只不過它會作為大系統的組成部分，其它如計算機視覺、深度學習和知識圖譜等組成部分可能更加引人注意。此外，專家系統完成的任務相對於端到端的方法會更寬廣。例如深度學習方法更擅長識別和分類等任務，它關注非常精細的決策。而專家系統會嘗試解決整個領域需要專業知識的決策，它可能會涉及多種任務。

正如吳教授所說，專家知識在各種系統都充當著非常重要的作用，不論是針對特定領域問題還是大數據。例如對於機器學習來說，很多時候先驗知識都是一種專家知識，而卷積神經網路等新型模型同樣也應用了專家知識，因為我們假設了圖像等二維數據只有在局部才是相互影響的。

但是純粹的專家系統卻有很多局限性，它無法兼容當前的大數據環境。首先大數據具有三大顯著特點，即海量數據、數據質量參差不齊、個性化屬性，這些都是傳統專家系統無法解決的，因此也就有了吳教授負責的國家重點研發計劃重點專項項目----大數據知識工程（BigKE）。

大數據知識工程

在大數據時代，如何利用知識工程的思想和方法獲取、表示、推理和解釋大數據，並將挖掘出的知識形成解決問題的大知識系統，這就是大數據知識工程（BigKE）最希望完成的目標。

相比於傳統專家系統，基於大數據的大知識系統更關注提取各種數據中的碎片化知識，並與領域的專家知識相結合而構建整個系統。大數據知識工程降低了對專家知識的依賴性，並希望從碎片化的信息中抽取群智知識。吳信東教授表示，從整體而言，BigKE 可以分為三階段，即多源異構數據中的碎片化知識建模、從局部知識到全局知識的碎片化知識融合、個性化知識導航。

包含三階段的 BigKE 框架，第一階段通過在線學習對碎片化知識進行建模，第二階段實現非線性知識融合，第三階段按需求提供知識服務。

碎片化知識建模

BigKE 首先會採用合適的模型對各種數據類型進行建模，相當於從非結構化數據中抽取結構化的知識。這一建模過程主要會採用在線學習的模式，即持續不斷地一點點學習不同的知識碎片。此外，從多種數據源中抽取的碎片化知識對評估數據的可靠性和數據質量有著重要的作用。如上所示，BigKE 會同時考慮數據流與特徵流，而對流數據的處理需要選擇動態模型來刻畫數據特徵，因此動態的知識提取是非常重要的方面。

在線學習繼續向後輸出具有語義信息的特徵，而數據的可靠性同樣也會在後面得以評估。之所以需要評估，主要是因為我們無法對所有數據進行建模，而且不同數據來源有著良莠不齊的質量。因此我們可以對數據來源進行排序和評價，獲得數據的精確度和可靠性，並在數據篩選時選擇較高質量的數據。因此相比於一般的在線學習，關注特徵流的在線學習不僅關注數據處理順序，同時關注更有效和優質的特徵空間。

吳教授表示對知識建模的在線學習可以是各種優秀的機器學習或深度學習模型。例如我們希望從文本中抽取出主體的屬性，那麼就能使用基於深度學習的命名實體識別抽取知識，而當我們希望從圖像中抽取出主要物體，那麼又可以使用卷積神經網路等方法抽取知識。這裡不同類型的數據會有合適的方法進行處理，並抽取出我們想要的知識。

非線性知識融合

在從不同的數據源抽取必要的知識後，如何融合這些不同方面的知識就顯得非常重要。為了將離散的局部知識融合為全局知識，BigKE 採用知識圖譜表示碎片化知識，其中局部知識可以表示為完整知識圖譜的一個子圖。

吳教授說：「知識圖譜的整體概念比較簡單，它主要包含兩部分。首先第一部分是節點，節點一般涉及到概念，比如人、物體和事件等，其次是連接，它會連接不同的概念。所以從本質上來說，任何能以概念及概念間的連接來表達的問題都能視為知識圖譜。」此外在知識圖譜中，連接會分為顯性連接和隱性連接，顯性連接可以是層次關係或親友關係等，而隱性連接為兩個概念沒有直接關係，但計算相似度等手段可以建立新的隱性關係。在知識圖譜里加上這些非線性屬性以後，能夠將局部知識與全局知識更好地聚合在一起，並實現更進一步的知識推理。

BigKE 採用知識圖譜表示和融合局部知識有非常多的優勢，首先來自各種數據源的知識有獨特的屬性，它們間的關係是複雜和演化的，因此傳統的線性融合方法無法反映出局部知識之間的聯繫。而知識圖譜為局部知識和全局知識提供了統一的表示形式，它們的概念都能表示成節點，而各種關係都能表示成連接。其次，知識圖譜節點之間的路徑可以視為不同知識片段之間的可能關聯，這為個性化服務的實現提供了可能。

知識推理

BigKE 的目標是根據用戶需求提供服務，也就是根據已搭建的知識圖譜進行知識推理。對於前面搭建的知識圖譜，其節點和邊分別對應於知識單元和知識之間的語義關聯，而提供知識服務可以視為搜索兩點之間的最佳路徑。此外，吳教授表示知識推理同樣可以實現個性化的推薦，並為個性化的查詢提供精確的導航服務。因此針對個性化查詢，BigKE 會在知識圖譜直接進行推斷，從而預測用戶可能的行為。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※神秘的「未來科技盛會」，首次對公眾開放
※報名 | AI領域年度最強賽事啟動，百舸爭流直通：英偉達GTC CHINA 2018

TAG:機器之心 |