當前位置:
首頁 > 最新 > 3分鐘,讓你懂得中文自然語言處理!

3分鐘,讓你懂得中文自然語言處理!

重磅知識,第一時間送達

引言

好幾天沒有寫關於自然語言處理方面的內容,實在抱歉,不過還是感謝大家支持。今天給大家分享一下關於中文自然語言處理的一些基礎知識,希望能夠幫你快點「入坑」。

本文概述

本次推文主要講述中文自然語言處理的基礎,分詞、詞性標註、命名實體識別,以及深度學習為什麼可以實現中文自然語言處理。

一、中文自然語言處理基礎

自然語言處理中最基礎的任務就是分詞、詞性標註以及命名實體識別識別。

分詞,它是中文自然語言處理中最重要的基礎性工作。即將未經過處理的自然語言文本劃分成詞語的序列。其中英文是通過空格作為分隔符,與英文不同,中文需要以以每個漢字為基本單位,詞語之間沒有明顯的區分標識。因此需要將漢字的序列進行劃分,從而轉變成單詞序列。常見的分詞工具有:jieba分詞、哈工大分詞工具、PyNLPIR分詞工具等。

詞性的標註:完成分詞之後,需要給每個分詞配一個詞性。關於詞性就是我們通常說的,這個詞是名詞、還是動詞、還是介詞等。詞性標註的意義在於,在知道一個詞的詞性後往往可以判斷出該詞附近可能出現的詞的詞性。比如「城管打人了。」這句話,人稱代詞後面往往跟著一個動詞,所以說對詞性的標註對於自然語言處理具有很大的作用。

命名實體識別:它是指從自然語言文本中發現例如人名、地名以及機構名的專有名詞的過程。比如,對於一個智能客服來說,在輸入的自然語言文中找出其包含的命名實體是最基本的前提條件,只有這樣,智能客服才能根據關鍵字給予答案進行回答。所以說,命名實體識別對文本分類,信息檢索等任務的性能提升具有至關重要的作用。對於命名實體的識別的結果,一般都是根據分詞與詞性標註的結果作為輸入得到的。

分詞、詞性標註以及命名實體識別之間有著很強的關聯性,比如,雖然分詞往往作為詞性標註的前置任務,但是在有些情況下詞性信息又可以對分詞構成知道作用。同時詞性和命名實體識別也是緊密關聯的,比如命名實體不可能是動詞或者形容詞。

二、傳統機器學習在NLP上的局限性

傳統機器學習在自然語言處理(NLP)方面上的局限性:

第一、傳統的自然語言處理模型需要使用大量的語言學知識來進行手工構造特徵,並且這些特徵通常是對應具體的應用,不具有廣泛的適用性。

第二、在傳統的自然語言處理模型中,通常分詞、詞性標註以及命名實體識別這個認為是採用「管道」結構進行的,即先進行分詞,再根據分詞的結果進行詞性的標註,最後根據分詞和詞性標註的結果進行命名實體識別,這樣就忽略了分詞、詞性標註以及命名實體識別之間的緊密聯繫,這樣就會產生錯誤傳播的問題。

三、深度學習在NLP上的可用性

深度學習在自然語言處理方面上的適用性。

首先深度學習可以通過構造模型來自動學慣用於解決自然語言處理領域的問題所需要的特徵,其次在自然語言處理領域,無標籤數據可以被輕易地大量獲得,這就是深度學習的優勢,最後在解決關聯性問題方面,深度學習可以在特徵提取層面構建統一的模型,並通過多任務學習的方法在模型中對其相關性進行建模,從而獲得更好的性能。

國外的很多自然語言處理演算法做的都很好,國外的英語模型能否直接用到中文的自然語言處理方面來呢?答案是不可以的。比如一本書,如果用英語單詞表示這本書的內容,需要一個80000個英文單詞的字典,但是如果用中文單詞表示這本書的內容,可能只需要4000個漢字的字典。由此可見,對於同一的一本書的內容,英語詞典的維度更高,這是因為中文單詞雖然字典維度低,但是一個字多個意思的情況非常的突出,更重要是的,漢語中隱含著複雜的單片語合關係,由於語言本身的特性,用於英文的自然語言處理的深度學習模型往往不需要非常多的隱藏層,因此如果對於中文自然語言處理套用英文的方法得到中文自然語言處理模型的是非常不合理的。

四、下期預看

下次推文,將具體介紹深度學習的特點及基本方法,包括深度學習的優勢,以及一些具體的深度學習模型在中英文自然語言處理中的應用等。好今天就到這,明天見:)。

重磅知識,第一時間送達


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 YI灬NI 的精彩文章:

TAG:YI灬NI |