一網打盡成語歇後語，GitHub新華字典資料庫

最新 07-31

大數據文摘出品

作者：蔣寶尚

今天，文摘菌給大家推薦一個非常優秀的資料庫——新華字典資料庫。

資料庫收錄了包括14032條歇後語，16142個漢字，31648個成語。下面文摘菌就簡單的介紹一下這個資料庫。

這個資料庫放在GitHub中，所有的數據放在data/目錄下，並且如果對性能沒有要求的同學，可以使用作者的新華字典API訪問資料庫。

資料庫地址：

https://github.com/pwxcoo/chinese-xinhua

項目結構

在GitHub中，整個新華字典資料庫的項目結構為：

整個結構包括數據文件夾，配置文件以及腳本文件夾，在腳本文件夾下提供了成語腳本和漢字腳本以及歇後語腳本的下載。

資料庫介紹及API的使用

前面提到，整個資料庫包括14032條歇後語，16142個漢字，31648個成語。

在使用API查詢每條成語的時候，分為兩種情況：

如果直接請求成語，需要兩個參數：

type=idiom 表示需要請求成語

word=興高采烈表示請求的成語

請求拼音首字母縮寫，也需要兩個參數：

type=idiom 表示需要請求成語

word=xgcl 表示請求的成語拼音首字母縮寫

下面文摘菌用Python簡單實現了一下：

返回結果為：

上圖可知，當你請求的是成語時，返回的結果包括：成語的來源、成語的解釋、成語的拼音、用成語造的句子以及成語的首字母縮寫。

當訪問歇後語的時候則也需要兩個參數：

type=xiehouyu 表示需要請求歇後語

riddle=王婆表示請求的歇後語的語面。可以模糊匹配

Python實現

由上圖的Python實現可知，當你輸入的關鍵詞是模糊的時候，結果會返回帶有關鍵詞的所有歇後語。例如，你查詢關鍵詞為王婆的歇後語，返回了三條結果，每條結果包含歇後語的迷面以及歇後語的謎底。

當需要訪問漢字的時候，當前介面只能直接請求漢字，不能請求拼音。如果請求了拼音，則返回的結果為空。

請求漢字需要兩個參數：

type=word 表示需要請求漢字

word=「蔣」表示請求的漢字

Python實現

如上圖所示，當請求『蔣』這個漢字的時候，返回的結果包括漢字的拼音、漢字的來源、以及漢字的繁體版等等。

註：GET、POST均可，返回數據格式為JSON。

資料庫GitHub地址：

https://github.com/pwxcoo/chinese-xinhua

開課倒計時2天

數據科學實訓營第6期

優秀助教推薦|姜姜

作為一枚對數據分析的理解僅限於Excel的小白，曾經一直認為通過寫代碼來分析數據是件無比高大上的事。可是，在數據科學實訓營居然就實現了！

手把手的教學方式，助教和同學們熱烈的交流討論，讓我慢慢地覺得一行行代碼如此親切。而當把自己頭腦中的構思通過代碼實現，看到結果的那一刻，真是無比激動！

經過Kaggle、天池的案例的歷練，對這些數據比賽也開始興趣盎然，有沒有小夥伴有興趣一起去玩一玩的？

作為第6期的北美地區助教，寄語各位學員：前方高能，請準備好足夠的時間，如果你能按時提交作業，結業時一定脫胎換骨。

【今日機器學習概念】

Have a Great Definition

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大數據文摘 的精彩文章:

※DeepMind想用IQ題測試AI的抽象思維能力，進展還不錯
※全球首家多語言智能客服上線，這家神秘AI公司有什麼秘密武器？

TAG:大數據文摘 |