NLP 與 NLU:從語言理解到語言處理
本文為 AI 研習社編譯的技術博客,原標題 :
NLP vs. NLU: from Understanding a Language to Its Processing
作者 | Sciforce
翻譯 | 蘿蔔菜在種樹 編輯 | 王立魚
原文鏈接:
https://medium.com/sciforce/nlp-vs-nlu-from-understanding-a-language-to-its-processing-1bf1f62453c1
隨著人工智慧的進步,相關技術變得越來越複雜,我們希望現有的概念能夠包容這種變化 - 或者改變自己。同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?
在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。
值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。首先,他們都用來處理自然語言和人工智慧之間的關係。他們都試圖理解類似於語言之類的非結構化數據,而不是像統計,行為等結構化數據。然而,NLP和NLU是許多其他數據挖掘技術的對立面。
來源: https://nlp.stanford.edu/~wcmac/papers/20140716-UNLU.pdf
自然語言處理NLP是一個已經很成熟,已有數十年歷史的領域。在計算機科學、人工智慧、數據挖掘等領域進行交叉。NLP的最終目的是通過機器讀取、解讀、理解和感知人類語言,將某些任務用機器來代替人類來處理,包括在線聊天機器人,文本摘要生成器,自動生成的關鍵字選項卡,以及分析文本情緒的工具。
NLP的作用
NLP在廣義上來說可以指廣泛的工具,例如語音識別、自然語言識別和自然語言生成。然而,在歷史上,NLP常用於:
符號化
解析
信息提取
相似度
語音識別
自然語言和語音生成等等
在現實生活中,NLP用於文本摘要、情感分析、主題提取、命名實體識別、詞性標註、關係提取、詞幹提取、文本挖掘、機器翻譯、自動問答、本體論、語言建模和我們可以想到的所有與語言相關的任務。
NLP技術
NLP的兩個支柱是句法分析和語義分析。
總結:NLP依靠機器學習通過分析文本語義和語法從人類語言中獲得意義。
自然語言理解(NLU)NLP可以追溯到20世紀50年代計算機程序員開始嘗試簡單的語言輸入。NLU在20世紀60年代開始發展,希望讓計算機能夠理解更複雜的語言輸入。NLU被認為是NLP的一個子方向,主要側重於機器閱讀理解:讓計算機理解文本的真正含義。
NLU實際上做了什麼
與NLP類似,NLU使用演算法將人類語音轉化為結構化本體。 然後使用AI演算法檢測意圖,時間,位置和情緒等。但是,當我們查看NLU任務時,我們會驚訝地發現這建立了多少NLP概念:
NLU任務
自然語言理解是許多過程的第一步,例如分類文本,收集新聞,歸檔單個文本,以及更大規模地分析內容。NLU的實際例子包括從基於理解文本發布短命令到小程度的小任務,例如基於基本語法和適當大小的詞典將電子郵件重新發送到合適的人。更為複雜的行為可能是完全理解詩歌或小說中的新聞文章或隱含意義。
總而言之:最好將NLU視為實現NLP的第一步:在機器處理語言之前,必須首先理解它。
NLP和NLU的相關性從其任務可以看出,NLU是NLP的組成部分,它負責人類理解某個文本所呈現的含義。與NLP最大的區別之一是NLU超越了解單詞,因為它試圖解釋和處理常見的人類錯誤,如錯誤發音或字母或單詞的顛倒。
推動NLP的理論是Noam Chomsky在1957年的「句法結構」中所設定的假設:「語言L的語言分析的基本目標是將L的句子的語法序列與不符合語法的序列分開。 這不是研究語言L的句子,而是研究語法序列的結構。」
句法分析確實用於多個任務,通過將語法規則應用於一組單詞並通過多種技術從中獲得意義來評估語言如何與語法規則保持一致:
詞形還原:將單詞的變形形式簡化為單一形式,以便於分析。
詞幹:將變形的詞語切割成它們的根形式。
形態分割:將單詞劃分為語素。
分詞:將連續文本分成不同的單元。
解析:句子的語法分析。
詞性標註:識別每個單詞的詞性。
句子破壞:將句子邊界放在連續文本上。
句法分析技術介紹
然而,語法正確性或不正確性並不總是與短語的有效性相關。 想想一個無意義而又語法化的句子「colorless green ideas sleep furiously」的經典例子。更重要的是,在現實生活中,有意義的句子通常包含輕微的錯誤,並且可以被歸類為不符合語法的。人工交互允許產生的文本和語音中的錯誤通過優秀的模式識別和從上下文中添加附加信息來補償它們。這顯示了以語法為中心的分析的不平衡性以及需要更加關注多級語義。
語義分析是NLU的核心,涉及應用計算機演算法來理解單詞的含義和解釋,尚未完全解決。
以下是語義分析中的一些技巧,僅舉幾例:
命名實體識別(NER):確定可以識別並分類為預設組的文本部分。
詞義消歧:根據語境賦予詞語意義。
自然語言生成:使用資料庫導出語義意圖並將其轉換為人類語言。
然而,為了完全理解自然語言,機器不僅需要考慮語義提供的字面意義,還需要考慮預期的信息,或理解文本試圖表達的內容。這個級別稱為語用分析(pragmatic analysis),它剛剛開始引入NLU / NLP技術。 目前,我們可以在一定程度上看到情緒分析:評估文本中包含的消極/積極/中立的感受。
NLP的未來追求創建一個能夠以人類方式與人類互動的聊天機器人的目標 - 並最終通過圖靈測試,企業和學術界正在研發更多的NLP和NLU技術。他們想到產品實現的目標應該輕鬆,無監督學習,並能夠以適當的方式直接與人們互動。
為實現這一目標,該研究分三個層次進行:
語法 - 理解文本的語法
語義 - 理解文本的字面意義
語用學 - 理解文本試圖表達的意思
不幸的是,理解和處理自然語言並不是提供足夠大的辭彙量和訓練機器那麼簡單。 如果要取得成功,NLP必須融合來自各個領域的技術:語言,語言學,認知科學,數據科學,計算機科學等。 只有結合所有可能的觀點,我們才能揭開人類語言的神秘面紗。雷鋒網雷鋒網雷鋒網
想要繼續查看該篇文章相關鏈接和參考文獻?
點擊【NLP 與 NLU:從語言理解到語言處理】即可訪問:
今日份資源推薦:「AIS 2019」是三大國際頂級會議的全面整合。其中,「A」代表自然語言處理領域最高級別會議ACL,「I」代表國際人工智慧聯合會議IJCAI,「S」代表信息檢索國際論壇SIGIR。這三大會議代表了全球計算機、人工智慧與信息檢索領域的最新成果。
※解讀 | 進軍邊緣計算,英偉達剛發布的 EGX 平台有何優勢?
TAG:雷鋒網 |