當前位置:
首頁 > 最新 > 一網打盡成語歇後語,GitHub新華字典資料庫

一網打盡成語歇後語,GitHub新華字典資料庫

大數據文摘出品

作者:蔣寶尚

今天,文摘菌給大家推薦一個非常優秀的資料庫——新華字典資料庫。

資料庫收錄了包括14032條歇後語,16142個漢字,31648個成語。下面文摘菌就簡單的介紹一下這個資料庫。

這個資料庫放在GitHub中,所有的數據放在data/目錄下,並且如果對性能沒有要求的同學,可以使用作者的新華字典API訪問資料庫。

資料庫地址:

https://github.com/pwxcoo/chinese-xinhua

項目結構

在GitHub中,整個新華字典資料庫的項目結構為:

整個結構包括數據文件夾,配置文件以及腳本文件夾,在腳本文件夾下提供了成語腳本和漢字腳本以及歇後語腳本的下載。

資料庫介紹及API的使用

前面提到,整個資料庫包括14032條歇後語,16142個漢字,31648個成語。

在使用API查詢每條成語的時候,分為兩種情況:

如果直接請求成語,需要兩個參數:

type=idiom 表示需要請求成語

word=興高采烈 表示請求的成語

請求拼音首字母縮寫,也需要兩個參數:

type=idiom 表示需要請求成語

word=xgcl 表示請求的成語拼音首字母縮寫

下面文摘菌用Python簡單實現了一下:

返回結果為:

上圖可知,當你請求的是成語時,返回的結果包括:成語的來源、成語的解釋、成語的拼音、用成語造的句子以及成語的首字母縮寫。

當訪問歇後語的時候則也需要兩個參數:

type=xiehouyu 表示需要請求歇後語

riddle=王婆 表示請求的歇後語的語面。可以模糊匹配

Python實現

由上圖的Python實現可知,當你輸入的關鍵詞是模糊的時候,結果會返回帶有關鍵詞的所有歇後語。例如,你查詢關鍵詞為王婆的歇後語,返回了三條結果,每條結果包含歇後語的迷面以及歇後語的謎底。

當需要訪問漢字的時候,當前介面只能直接請求漢字,不能請求拼音。如果請求了拼音,則返回的結果為空。

請求漢字需要兩個參數:

type=word 表示需要請求漢字

word=「蔣」 表示請求的漢字

Python實現

如上圖所示,當請求『蔣』這個漢字的時候,返回的結果包括漢字的拼音、漢字的來源、以及漢字的繁體版等等。

註:GET、POST均可,返回數據格式為JSON。

資料庫GitHub地址:

https://github.com/pwxcoo/chinese-xinhua

開課倒計時2天

數據科學實訓營第6期

優秀助教推薦|姜姜

作為一枚對數據分析的理解僅限於Excel的小白,曾經一直認為通過寫代碼來分析數據是件無比高大上的事。可是,在數據科學實訓營居然就實現了!

手把手的教學方式,助教和同學們熱烈的交流討論,讓我慢慢地覺得一行行代碼如此親切。而當把自己頭腦中的構思通過代碼實現,看到結果的那一刻,真是無比激動!

經過Kaggle、天池的案例的歷練,對這些數據比賽也開始興趣盎然,有沒有小夥伴有興趣一起去玩一玩的?

作為第6期的北美地區助教,寄語各位學員:前方高能,請準備好足夠的時間,如果你能按時提交作業,結業時一定脫胎換骨。

【今日機器學習概念】

Have a Great Definition


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據文摘 的精彩文章:

DeepMind想用IQ題測試AI的抽象思維能力,進展還不錯
全球首家多語言智能客服上線,這家神秘AI公司有什麼秘密武器?

TAG:大數據文摘 |