當前位置:
首頁 > 知識 > 資源 | 中文NLP資源庫

資源 | 中文NLP資源庫

乾明 編輯整理
量子位 出品 | 公眾號 QbitAI


最近,在GitHub上,有人收羅了一份資源,彙集了40個關於中文NLP詞庫,涵蓋了各個方面。


中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典。

辭彙情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峰歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫。


否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫。


地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據。



目前,這份資源在GitHub上已經超過了700星。


收羅這份資源的人,在GitHub上昵稱為「Yang」,備註信息中顯示,他是北航的博士。在知乎上也開設了一個專欄,專門介紹關於機器學習的小知識。



在Yang給出的這份資源中,他並不只是簡簡單單地提供一些詞庫了事,還給出了32個詞庫的用法。


比如,中英文敏感詞過濾:

 >>> f = DFAFilter()
 >>> f.add(

"sexy"

)
 >>> f.filter(

"hello sexy baby"

)
 hello **** baby


有時,還會針對一些詞庫給出提示,針對這個詞庫他就提示道:


敏感詞包括政治、髒話等話題辭彙。其原理主要是基於詞典的查找(項目中的keyword文件),內容很勁爆。。。


再來一個根據名字判斷性別的例子:


pip install ngender # 基於樸素貝葉斯計算的概率

>>> 

import

 ngender
>>> ngender.guess(

"趙本山"

)
(

"male"

0.9836229687547046

)
>>> ngender.guess(

"宋丹丹"

)
(

"female"

0.9759486128949907

)


此處省略了其他30個……如果有興趣,可以去看看,收藏下來,以備不時之需。


傳送門:(

點擊閱讀原文即可訪問


https://github.com/fighting41love/funNLP


作者知乎專欄地址:
https://zhuanlan.zhihu.com/yangyangfuture


推薦閱讀



一個理工屌絲男的本碩博十年大學生活綜述

資源 | 英語不行?你可以試試TensorFlow官方中文版教程


下載 | 384頁NLP多任務聯合學習教程(PPT)



這是一份超全機器學習&深度學習資源清單(105個AI站點),請收藏!



Python編輯器你選哪個?我選PyCharm



20張圖表達程序員的心酸


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |