6千萬辭彙的巨型漢語詞庫
微信公眾號
關鍵字
全網搜索最新排名
【機器學習演算法】:排名第一
【機器學習】:排名第二
【Python】:排名第三
【演算法】:排名第四
演算法+語料≈NLP
這是一個六千萬辭彙量的分類詞庫,從事NLP時間久了你會感覺到,
演算法無法解決所有問題,詞庫也非常重要。
通常一個演算法可以解決80%的問題,剩下的20%無論怎麼調節優化,都是拆東牆補西牆。比如「區人保」被HMM人名識別模塊誤命中的例子,這個詞讓HMM來看,「區」作為姓氏,「人」「保」作為名字的二三字的確非常有可能,但是正常人都不會取這個名字。要是我把「人」「保」這兩個字的頻度降低或刪除的話,「襲人」「王保全」這些名字又無法識別。之前分享的數據集大都是做計算機視覺以及分類問題使用的,這次分享一個6千萬辭彙
的巨型漢語詞庫。
由於目錄太過龐大,只貼出一部分:
中國海洋大學青島學院名人錄.txt
中國海誠.txt
中國淡水魚類名稱.txt
中國煙名大全.txt
中國煙草名詞.txt
中國理學總詞庫.txt
中國畫專業詞庫.txt
中國療養院名錄.txt
中國的世界文化遺產名錄.txt
中國相聲師承關係族譜.txt
中國石化五建分包名單.txt
中國石油西北銷售公司詞庫.txt
中國神仙表.txt
中國種子植物科屬.txt
中國種子植物科屬詞典.txt
中國種子植物科屬詞典1.1.txt
中國科學技術大學.txt
中國科學技術大學【校園詞庫】.txt
中國科學院海洋研究所人名錄.txt
中國科學院院士名.txt
中國移動 151.txt
中國移動專用詞庫.txt
中國移動業務專用.txt
中國移動安徽有限公司.txt
中國移動福建公司員工花名冊.txt
中國網路作家.txt
中國職業名稱大全.txt
中國聯通福建分公司客服中心專用.txt
中國自唱歌曲.txt
中國自然保護區.txt
中國航油.txt
中國藝術家(音樂理論、表演類).txt
中國營口論壇-營口地方話詞庫.txt
中國著名演奏家.txt
中國觀鳥年報-中國鳥類名錄3.0.txt
中國計量學院.txt
中國象棋.txt
中國象棋常用辭彙.txt
中國象棋紅方走法大全.txt
中國財稅管理諮詢網.txt
中國近代歷史名人.txt
中國野鳥名錄.txt
中國鋼廠名稱庫.txt
中國鐵路名詞.txt
中國銀行.txt
中國銀行快速錄入.txt
中國音樂學院音樂考級山東考區人名2010年.txt
中國音樂文化詞庫.txt
中國風景名勝.txt
中國高等教育名錄資料庫.txt
中國高等院校(大學)大全【官方推薦】.txt
舉個例子
四十萬漢語大詞庫.txt
吖吖
吖啶
阿Q正傳
阿阿
阿八
阿巴拉契亞山脈
阿爸
阿傍
阿謗
阿保
阿保之功
阿保之勞
阿本郎
阿鼻
阿鼻地獄
阿鼻鬼
阿鼻叫喚
阿鼻獄
阿比
阿比讓
阿辟
阿避
阿炳
阿波羅
阿波羅計劃
阿伯
阿步干
阿茶
阿諂
阿昌族
阿叱
阿閦
阿從
阿達
阿斗
阿闍
阿闍梨
自然語言處理及計算語言學相關術語.txt
隱式馬可夫模型
階層結構層次結構
單詞句
同形異義詞
同音異義詞
同音詞
同音異義
同部位音的
子句
人機界面
上位詞
超文件超文本
下位詞
主從結構的
直接成份
訊息為本的格位語法
成語熟語
特異性
施為性
直接成份
祈使句
蘊含謂詞
含意
標引的
間接賓語
間接言談行動間接言語行為
歸納推理
推理機器
不定詞不定式
中綴
屈折變化
屈折詞綴
資訊擷取
資訊處理信息處理
資訊檢索
資訊理論資訊理論
固有特徵
繼承
繼承
繼承階層繼承層次
屬性繼承
語法天生假說
中插
里里外外演演算法
體現
工具格
集成句法剖析程式
政府機關團體機構大全【官方推薦】.txt
質量技術監督局
紀律檢查委員會
機關事務管理局
國家知識產權局
最高人民檢察院
河北教育考試院
國家外匯管理局
人民政府辦公廳
計劃生育服務站
科學技術委員會
中華全國總工會
北京市人民政府
國家煙草專賣局
長江水利委員會
黃河水利委員會
市中級人民法院
河北省人民政府
市政工程管理處
環境衛生管理處
社區居民委員會
四川石油管理局
工業園區管委會
黑龍江省教育廳
華北石油管理局
中國美術家協會
市政管理委員會
哈爾濱市公安局
機動車輛管理所
遼寧省人民政府
一些奇葩詞庫
下載鏈接:
http://pan.baidu.com/s/1pLug8cj
投稿、商業合作
請發郵件到:357062955@qq.com