一網打盡成語歇後語,GitHub新華字典資料庫
大數據文摘出品
作者:蔣寶尚
今天,文摘菌給大家推薦一個非常優秀的資料庫——新華字典資料庫。
資料庫收錄了包括14032條歇後語,16142個漢字,31648個成語。下面文摘菌就簡單的介紹一下這個資料庫。
這個資料庫放在GitHub中,所有的數據放在data/目錄下,並且如果對性能沒有要求的同學,可以使用作者的新華字典API訪問資料庫。
資料庫地址:
https://github.com/pwxcoo/chinese-xinhua
項目結構
在GitHub中,整個新華字典資料庫的項目結構為:
整個結構包括數據文件夾,配置文件以及腳本文件夾,在腳本文件夾下提供了成語腳本和漢字腳本以及歇後語腳本的下載。
資料庫介紹及API的使用
前面提到,整個資料庫包括14032條歇後語,16142個漢字,31648個成語。
在使用API查詢每條成語的時候,分為兩種情況:
如果直接請求成語,需要兩個參數:
type=idiom 表示需要請求成語
word=興高采烈 表示請求的成語
請求拼音首字母縮寫,也需要兩個參數:
type=idiom 表示需要請求成語
word=xgcl 表示請求的成語拼音首字母縮寫
下面文摘菌用Python簡單實現了一下:
返回結果為:
上圖可知,當你請求的是成語時,返回的結果包括:成語的來源、成語的解釋、成語的拼音、用成語造的句子以及成語的首字母縮寫。
當訪問歇後語的時候則也需要兩個參數:
type=xiehouyu 表示需要請求歇後語
riddle=王婆 表示請求的歇後語的語面。可以模糊匹配
Python實現
由上圖的Python實現可知,當你輸入的關鍵詞是模糊的時候,結果會返回帶有關鍵詞的所有歇後語。例如,你查詢關鍵詞為王婆的歇後語,返回了三條結果,每條結果包含歇後語的迷面以及歇後語的謎底。
當需要訪問漢字的時候,當前介面只能直接請求漢字,不能請求拼音。如果請求了拼音,則返回的結果為空。
請求漢字需要兩個參數:
type=word 表示需要請求漢字
word=「蔣」 表示請求的漢字
Python實現
如上圖所示,當請求『蔣』這個漢字的時候,返回的結果包括漢字的拼音、漢字的來源、以及漢字的繁體版等等。
註:GET、POST均可,返回數據格式為JSON。
資料庫GitHub地址:
https://github.com/pwxcoo/chinese-xinhua
開課倒計時2天
數據科學實訓營第6期
優秀助教推薦|姜姜
作為一枚對數據分析的理解僅限於Excel的小白,曾經一直認為通過寫代碼來分析數據是件無比高大上的事。可是,在數據科學實訓營居然就實現了!
手把手的教學方式,助教和同學們熱烈的交流討論,讓我慢慢地覺得一行行代碼如此親切。而當把自己頭腦中的構思通過代碼實現,看到結果的那一刻,真是無比激動!
經過Kaggle、天池的案例的歷練,對這些數據比賽也開始興趣盎然,有沒有小夥伴有興趣一起去玩一玩的?
作為第6期的北美地區助教,寄語各位學員:前方高能,請準備好足夠的時間,如果你能按時提交作業,結業時一定脫胎換骨。
【今日機器學習概念】
Have a Great Definition
※DeepMind想用IQ題測試AI的抽象思維能力,進展還不錯
※全球首家多語言智能客服上線,這家神秘AI公司有什麼秘密武器?
TAG:大數據文摘 |