資源 | 中文NLP資源庫
乾明 編輯整理
量子位 出品 | 公眾號 QbitAI
最近,在GitHub上,有人收羅了一份資源,彙集了40個關於中文NLP詞庫,涵蓋了各個方面。
中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典。
辭彙情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峰歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫。
否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫。
地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據。
目前,這份資源在GitHub上已經超過了700星。
收羅這份資源的人,在GitHub上昵稱為「Yang」,備註信息中顯示,他是北航的博士。在知乎上也開設了一個專欄,專門介紹關於機器學習的小知識。
在Yang給出的這份資源中,他並不只是簡簡單單地提供一些詞庫了事,還給出了32個詞庫的用法。
比如,中英文敏感詞過濾:
>>> f = DFAFilter()
>>> f.add(
"sexy"
)>>> f.filter(
"hello sexy baby"
)hello **** baby
有時,還會針對一些詞庫給出提示,針對這個詞庫他就提示道:
敏感詞包括政治、髒話等話題辭彙。其原理主要是基於詞典的查找(項目中的keyword文件),內容很勁爆。。。
再來一個根據名字判斷性別的例子:
pip install ngender # 基於樸素貝葉斯計算的概率
>>>
import
ngender>>> ngender.guess(
"趙本山"
)
(
"male"
,0.9836229687547046
)>>> ngender.guess(
"宋丹丹"
)(
"female"
,0.9759486128949907
)此處省略了其他30個……如果有興趣,可以去看看,收藏下來,以備不時之需。
傳送門:(
點擊閱讀原文即可訪問
)
https://github.com/fighting41love/funNLP
作者知乎專欄地址:
https://zhuanlan.zhihu.com/yangyangfuture
推薦閱讀
一個理工屌絲男的本碩博十年大學生活綜述
資源 | 英語不行?你可以試試TensorFlow官方中文版教程
下載 | 384頁NLP多任務聯合學習教程(PPT)
這是一份超全機器學習&深度學習資源清單(105個AI站點),請收藏!
Python編輯器你選哪個?我選PyCharm
20張圖表達程序員的心酸