5分鐘學習自然語言處理
隨著Alexa、Google Home、Siri等的興起,NLP將逐漸成為開發人員的重要技術之一。下面我會和大家科普一下什麼是自然語言處理(NLP),以及它的技術和原理。
什麼是自然語言處理
我們可能會說印度語、英語、漢語等,但計算機的語言不是有單詞的語言,而是有很多1和0組成的。NLP是以一種智能和高效的方式與計算機相互溝通。簡單來說,NLP可以幫助計算機理解和翻譯人類語言。
自然語言處理的應用
NLP無處不在,只是我們沒有意識到而已。當您準備發送郵件,如果沒有添加在郵件正文中提及的附件,Gmail會自動提醒,其實這就是NLP為你做的。機器翻譯、語音識別、自動文摘、情感分析、文本挖掘等都是NLP的一些應用。
自然語言處理庫
Natural language toolkit (NLTK);
Apache OpenNLP;
Stanford NLP suite;
Gate NLP library
自然語言工具包( NLTK )是目前最流行的自然語言處理庫。它是用Python編寫的,而且背後有一個很強大的社區支撐。NLTK也非常容易學習,實際上,它是最簡單的自然語言處理( NLP )庫。了解一下NLP中的幾個術語:
Corpus:Corpus是一個龐大的文本集合。Corpus可以由書面語、口語或兩者組成。口語Corpus通常採用錄音的形式。Corpus的複數形式是語料庫。
Tokenization:Tokenization是將一個句子或字元串分割成多個片段的任務,稱為令牌。
Stopwords:有時,一些看起來對理解數據毫無價值但是又極其常見的辭彙需要完全排除在辭彙之外。這些字叫做stop words。
前一句是:「你好,Aswathi,你今天在做什麼?」
在去掉stop words後,我們的句子是:「你好,阿斯瓦提,今天怎麼樣?」。我們去掉了「是」「你」「在做」,這並沒有增加句子的一般語氣的價值。
Alternative Approach:你也可以構建自己的單詞列表,你認為這些單詞對分析沒有什麼價值,而不必導入stopswords模塊。下面是一個小例子。
Normalization:Predict, prediction, predicting, predictable是同一單詞「predict」的不同形式。雖然它們在上下文中意思不同,但它們都是相似的。歸一化將單詞的所有差異轉換為其正常形式。
文本normalization有兩種重要類型。
1 )Stemming:Stemming是指一個粗略的啟發式過程,它將單詞的結尾切掉,得到規範化的單詞。
2 )Lemmatization:Lemmatization通常是指利用辭彙和詞的形態分析來恰當地處理事物,通常目的是僅去除屈折結尾,並回歸詞的基本形式或詞典形式,即引理。
Bag of Words( BOW ) :為了運行ML演算法,我們必須將文本轉換為特徵向量。BOW模型將幫助我們做到這一點,方法是將每個句子拆分成單詞,然後計算每個單詞出現的次數。每個獨特的單詞都將作為訓練我們模型的一個特徵。
TF - IDF表示術語頻率-逆文檔頻率。
Term Frequency( Tf )標識單詞在文檔中出現的頻率。由於每個文檔的長度不同,術語在長文檔中出現的時間可能比在短文檔中出現的時間長得多。因此,術語頻率除以該文檔中的單詞總數,作為normalization的方式。
TF ( t ) = (術語t出現在文檔中的次數) / (文檔中的術語總數)
但是,我們經常在一個文檔中遇到許多詞,這些詞意義不大,但具有非常高的頻率,如「the」、「an」、「as」、「is」等。一種方法是刪除這些我們已經在上面看到的stio words。另一種方法是使用逆文檔頻率( IDF),它可以測量單詞的重要性。逆文檔頻率降低了常用詞的比例,增加了稀有詞的比例,從而增加了文本的價值。
IDF ( t ) = log_ e (文檔總數/文檔中包含術語t的文檔數)
TF-IDF=TF( t )*IDF ( t )
完
AICAMP(全球AI技術訓練營)是專註於AI領域的全球化社區。總部在西雅圖矽谷和紐約,社區覆蓋美國、加拿大、中國、歐洲、澳大利亞等多地區。社區有超過500多名來自於微軟,亞馬遜,Google , Facebook, Uber, Twitter, Airbnb, Intel, LinkedIn, Yahoo, Nvidia等團隊的頂級技術大咖講師,全球社區成員超過5萬人(美國2萬)。和全世界技術人員一起學習和練習AI技術,累計舉辦超過100多場線下技術沙龍,黑客馬拉松, 在線技術講座和培訓,同時向全世界直播。
全球技術學習群
AICamp技術學習第11群開始招募啦,歡迎對AI感興趣的同學,加微信群管理員shanyueai.專業技術群審核較嚴,敬請諒解和耐心等候。
誠摯招聘
AICamp全球招募技術社區運營人員,城市大使,組織當地的技術學習社區,配合矽谷西雅圖紐約總部技術沙龍全球直播等。免費學習和接觸技術大咖,每年1-2次美國出差和學習等。期待有才氣和熱情的同學加入!相關細節,請在公眾號回復「城市大使」兩個字。
※不甘落後Tensorflow,微軟另闢蹊徑發布新型深度學習框架
TAG:AICamp |