立委科普：自然語言系統架構簡說

最新 07-03

對於自然語言處理（NLP）及其應用，系統架構是核心問題，我在博文【立委科普：NLP 聯絡圖】裡面給了四個NLP系統的體系結構的框架圖，現在就一個一個做個簡要的解說。

我把 NLP 系統從核心引擎直到應用，分為四個階段，對應四張框架圖。最底層最核心的是 deep parsing，就是對自然語言的自底而上層層推進的自動分析器，這個工作最繁難，但是它是絕大多數NLP系統基礎技術。

parsing 的目的是把非結構的語言結構化。面對千變萬化的語言表達，只有結構化了，patterns 才容易抓住，信息才好抽取，語義才好求解。這個道理早在喬姆斯基1957年語言學革命後提出表層結構到深層結構轉換的時候，就開始成為（計算）語言學的共識了。結構樹不僅是表達句法關係的枝幹（arcs），還包括負載了各種信息的單詞或短語的葉子（nodes）。結構樹雖然重要，但一般不能直接支持產品，它只是系統的內部表達，作為語言分析理解的載體和語義落地為應用的核心支持。

接下來的一層是抽取層（extraction），如上圖所示。它的輸入是結構樹，輸出是填寫了內容的 templates，類似於填表：就是對於應用所需要的情報，預先定義一個表格出來，讓抽取系統去填空，把語句中相關的詞或短語抓出來送進表中事先定義好的欄目（fields）去。這一層已經從原先的領域獨立的 parser 進入面對領域、針對應用和產品需求的任務了。

值得強調的是，抽取層是面向領域的語義聚焦的，而前面的分析層則是領域獨立的。因此，一個好的架構是把分析做得很深入很邏輯，以便減輕抽取的負擔。在深度分析的邏輯語義結構上做抽取，一條抽取規則等價於語言表層的千百條規則。這就為領域轉移創造了條件。

有兩大類抽取，一類是傳統的信息抽取（IE），抽取的是事實或客觀情報：實體、實體之間的關係、涉及不同實體的事件等，可以回答 who dis what when and where （誰在何時何地做了什麼）之類的問題。這個客觀情報的抽取就是如今火得不能再火的知識圖譜（knowledge graph）的核心技術和基礎，IE 完了以後再加上下一層挖掘裡面的整合（IF：information fusion），就可以構建知識圖譜。另一類抽取是關於主觀情報，輿情挖掘就是基於這一種抽取。我過去五年著重做的也是這塊，細線條的輿情抽取（不僅僅是褒貶分類，還要挖掘輿情背後的理由來為決策提供依據）。這是 NLP 中最難的任務之一，比客觀情報的 IE 要難得多。抽取出來的信息通常是存到某種資料庫去。這就為下面的挖掘層提供了碎片情報。

很多人混淆了抽取（information extraction）和下一步的挖掘（text mining），但實際上這是兩個層面的任務。抽取面對的是一顆顆語言的樹，從一個個句子裡面去找所要的情報。而挖掘面對的是一個 corpus，或數據源的整體，是從語言森林裡面挖掘有統計價值的情報。在信息時代，我們面對的最大挑戰就是信息過載，我們沒有辦法窮盡信息海洋，因此，必須藉助電腦來從信息海洋中挖掘出關鍵的情報來滿足不同的應用。因此挖掘天然地依賴統計，沒有統計，抽取出來的信息仍然是雜亂無章的碎片，有很大的冗餘，挖掘可以整合它們。

很多系統沒有深入做挖掘，只是簡單地把表達信息需求的 query 作為入口，實時（real time）去從抽取出來的相關的碎片化信息的資料庫里，把 top n 結果簡單合并，然後提供給產品和用戶。這實際上也是挖掘，不過是用檢索的方式實現了簡單的挖掘就直接支持應用了。

實際上，要想做好挖掘，這裡有很多的工作可做，不僅可以整合提高已有情報的質量。而且，做得深入的話，還可以挖掘出隱藏的情報，即不是元數據里顯式表達出來的情報，譬如發現情報之間的因果關係，或其他的統計性趨勢。這種挖掘最早在傳統的數據挖掘（data mining）里做，因為傳統的挖掘針對的是交易記錄這樣的結構數據，容易挖掘出那些隱含的關聯（如，買尿片的人常常也買啤酒，原來是新為人父的人的慣常行為，這類情報挖掘出來可以幫助優化商品擺放和銷售）。如今，自然語言也結構化為抽取的碎片情報在資料庫了，當然也就可以做隱含關聯的情報挖掘來提升情報的價值。

第四張架構圖是NLP應用（apps）層。在這一層，分析、抽取、挖掘出來的種種情報可以支持不同NLP產品和服務。從問答系統到知識圖譜的動態瀏覽（谷歌搜索中搜索明星已經可以看到這個應用），從自動民調到客戶情報，從智能助理到自動文摘等等。

這算是我對NLP基本架構的一個總體解說。根據的是近20年在工業界做NLP產品的經驗。18年前，我就是用一張NLP架構圖忽悠來的第一筆風投，投資人自己跟我們說，這是 million dollar slide。如今的解說就是從那張圖延伸拓展而來。

天不變道亦不變。

以前在哪裡提過這個 million-dollar slide 的故事。說的是柯林頓當政時期的 2000 前，美國來了一場互聯網科技大躍進，史稱 .com bubble，一時間熱錢滾滾，各種互聯網創業公司如雨後春筍。就在這樣的形勢下，老闆決定趁熱去找風險投資，囑我對我們實現的語言系統原型做一個介紹。我於是畫了下面這麼一張三層的NLP體系架構圖，最底層是parser，由淺入深，中層是建立在parsing基礎上的信息抽取，最頂層是幾類主要的應用，包括問答系統。連接應用與下面兩層語言處理的是資料庫，用來存放信息抽取的結果，這些結果可以隨時為應用提供情報。這個體系架構自從我15年前提出以後，就一直沒有大的變動，雖然細節和圖示都已經改寫了不下100遍了，本文的架構圖示大約是前20版中的一版，此版只關核心引擎（後台），沒有包括應用（前台）。話說架構圖一大早由我老闆寄送給華爾街的天使投資人，到了中午就得到他的回復，表示很感興趣。不到兩周，我們就得到了第一筆100萬美金的天使投資支票。投資人說，這張圖太妙了，this is a million dollar slide，它既展示了技術的門檻，又顯示了該技術的巨大潛力。

from科學網—前知識圖譜鉤沉: 信息抽取引擎的架構

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 洗腳池 的精彩文章:

※計算語言學的尷尬

TAG:洗腳池 |

您可能感興趣

※韋樹關：為民族語言「立言」
※白俄羅斯明斯克國立語言大學成立中文系培養人才
※語言，及其特性：術語系統
※聯合國教科文組織正式公布保護語言多樣性《嶽麓宣言》
※程序設計語言的簡單介紹
※韓國瑜的啟示：政治語言唯真不破
※語言密碼：解密中西方語言
※從英國語言政策看語言保護工作
※語言密室：橫自話自說2
※語言的魔方：語言塑造文化
※喝酒五語言：豪言壯語，花言巧語，胡言亂語、不言不語，自言自語
※語言構件和習慣思維
※阿拉善左旗漢語方言順利通過國家語言保護立項可行性評估
※說話的語言藝術
※清華成立自然語言處理與社會人文計算研究中心，孫茂松任主任
※語言：朗誦藝術中的語言技巧
※關於「漢語成官方語言」，巴基斯坦參議院果然闢謠了！
※Go 編程語言的簡單介紹
※三味書屋：語言是種文化現象—兼說汪曾祺小說語言藝術
※自然語言處理：語言模型與評價方法