當前位置:
首頁 > 最新 > 立委科普:自然語言系統架構簡說

立委科普:自然語言系統架構簡說

對於自然語言處理(NLP)及其應用,系統架構是核心問題,我在博文【立委科普:NLP 聯絡圖 】裡面給了四個NLP系統的體系結構的框架圖,現在就一個一個做個簡要的解說。

我把 NLP 系統從核心引擎直到應用,分為四個階段,對應四張框架圖。最底層最核心的是 deep parsing,就是對自然語言的自底而上層層推進的自動分析器,這個工作最繁難,但是它是絕大多數NLP系統基礎技術。

parsing 的目的是把非結構的語言結構化。面對千變萬化的語言表達,只有結構化了,patterns 才容易抓住,信息才好抽取,語義才好求解。這個道理早在喬姆斯基1957年語言學革命後提出表層結構到深層結構轉換的時候,就開始成為(計算)語言學的共識了。結構樹不僅是表達句法關係的枝幹(arcs),還包括負載了各種信息的單詞或短語的葉子(nodes)。結構樹雖然重要,但一般不能直接支持產品,它只是系統的內部表達,作為語言分析理解的載體和語義落地為應用的核心支持。

接下來的一層是抽取層 (extraction),如上圖所示。它的輸入是結構樹,輸出是填寫了內容的 templates,類似於填表:就是對於應用所需要的情報,預先定義一個表格出來,讓抽取系統去填空,把語句中相關的詞或短語抓出來送進表中事先定義好的欄目(fields)去。這一層已經從原先的領域獨立的 parser 進入面對領域、針對應用和產品需求的任務了。

值得強調的是,抽取層是面向領域的語義聚焦的,而前面的分析層則是領域獨立的。因此,一個好的架構是把分析做得很深入很邏輯,以便減輕抽取的負擔。在深度分析的邏輯語義結構上做抽取,一條抽取規則等價於語言表層的千百條規則。這就為領域轉移創造了條件。

有兩大類抽取,一類是傳統的信息抽取(IE),抽取的是事實或客觀情報:實體、實體之間的關係、涉及不同實體的事件等,可以回答 who dis what when and where (誰在何時何地做了什麼)之類的問題。這個客觀情報的抽取就是如今火得不能再火的知識圖譜(knowledge graph)的核心技術和基礎,IE 完了以後再加上下一層挖掘裡面的整合(IF:information fusion),就可以構建知識圖譜。另一類抽取是關於主觀情報,輿情挖掘就是基於這一種抽取。我過去五年著重做的也是這塊,細線條的輿情抽取(不僅僅是褒貶分類,還要挖掘輿情背後的理由來為決策提供依據)。這是 NLP 中最難的任務之一,比客觀情報的 IE 要難得多。抽取出來的信息通常是存到某種資料庫去。這就為下面的挖掘層提供了碎片情報。

很多人混淆了抽取(information extraction) 和下一步的挖掘(text mining),但實際上這是兩個層面的任務。抽取面對的是一顆顆語言的樹,從一個個句子裡面去找所要的情報。而挖掘面對的是一個 corpus,或數據源的整體,是從語言森林裡面挖掘有統計價值的情報。在信息時代,我們面對的最大挑戰就是信息過載,我們沒有辦法窮盡信息海洋,因此,必須藉助電腦來從信息海洋中挖掘出關鍵的情報來滿足不同的應用。因此挖掘天然地依賴統計,沒有統計,抽取出來的信息仍然是雜亂無章的碎片,有很大的冗餘,挖掘可以整合它們。

很多系統沒有深入做挖掘,只是簡單地把表達信息需求的 query 作為入口,實時(real time)去從抽取出來的相關的碎片化信息的資料庫里,把 top n 結果簡單合并,然後提供給產品和用戶。這實際上也是挖掘,不過是用檢索的方式實現了簡單的挖掘就直接支持應用了。

實際上,要想做好挖掘,這裡有很多的工作可做,不僅可以整合提高已有情報的質量。而且,做得深入的話,還可以挖掘出隱藏的情報,即不是元數據里顯式表達出來的情報,譬如發現情報之間的因果關係,或其他的統計性趨勢。這種挖掘最早在傳統的數據挖掘(data mining)里做,因為傳統的挖掘針對的是交易記錄這樣的結構數據,容易挖掘出那些隱含的關聯(如,買尿片的人常常也買啤酒,原來是新為人父的人的慣常行為,這類情報挖掘出來可以幫助優化商品擺放和銷售)。如今,自然語言也結構化為抽取的碎片情報在資料庫了,當然也就可以做隱含關聯的情報挖掘來提升情報的價值。

第四張架構圖是NLP應用(apps)層。在這一層,分析、抽取、挖掘出來的種種情報可以支持不同NLP產品和服務。從問答系統到知識圖譜的動態瀏覽(谷歌搜索中搜索明星已經可以看到這個應用),從自動民調到客戶情報,從智能助理到自動文摘等等。

這算是我對NLP基本架構的一個總體解說。根據的是近20年在工業界做NLP產品的經驗。18年前,我就是用一張NLP架構圖忽悠來的第一筆風投,投資人自己跟我們說,這是 million dollar slide。如今的解說就是從那張圖延伸拓展而來。

天不變道亦不變。

以前在哪裡提過這個 million-dollar slide 的故事。說的是柯林頓當政時期的 2000 前,美國來了一場互聯網科技大躍進,史稱 .com bubble,一時間熱錢滾滾,各種互聯網創業公司如雨後春筍。就在這樣的形勢下,老闆決定趁熱去找風險投資,囑我對我們實現的語言系統原型做一個介紹。我於是畫了下面這麼一張三層的NLP體系架構圖,最底層是parser,由淺入深,中層是建立在parsing基礎上的信息抽取,最頂層是幾類主要的應用,包括問答系統。連接應用與下面兩層語言處理的是資料庫,用來存放信息抽取的結果,這些結果可以隨時為應用提供情報。這個體系架構自從我15年前提出以後,就一直沒有大的變動,雖然細節和圖示都已經改寫了不下100遍了,本文的架構圖示大約是前20版中的一版,此版只關核心引擎(後台),沒有包括應用(前台)。話說架構圖一大早由我老闆寄送給華爾街的天使投資人,到了中午就得到他的回復,表示很感興趣。不到兩周,我們就得到了第一筆100萬美金的天使投資支票。投資人說,這張圖太妙了,this is a million dollar slide,它既展示了技術的門檻,又顯示了該技術的巨大潛力。

from科學網—前知識圖譜鉤沉: 信息抽取引擎的架構

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 洗腳池 的精彩文章:

計算語言學的尷尬

TAG:洗腳池 |

您可能感興趣

韋樹關:為民族語言「立言」
白俄羅斯明斯克國立語言大學成立中文系 培養人才
語言,及其特性:術語系統
聯合國教科文組織正式公布保護語言多樣性《嶽麓宣言》
程序設計語言的簡單介紹
韓國瑜的啟示:政治語言唯真不破
語言密碼:解密中西方語言
從英國語言政策看語言保護工作
語言密室:橫自話自說2
語言的魔方:語言塑造文化
喝酒五語言:豪言壯語,花言巧語,胡言亂語、不言不語,自言自語
語言構件和習慣思維
阿拉善左旗漢語方言順利通過國家語言保護立項可行性評估
說話的語言藝術
清華成立自然語言處理與社會人文計算研究中心,孫茂松任主任
語言:朗誦藝術中的語言技巧
關於「漢語成官方語言」,巴基斯坦參議院果然闢謠了!
Go 編程語言的簡單介紹
三味書屋:語言是種文化現象—兼說汪曾祺小說語言藝術
自然語言處理:語言模型與評價方法