當前位置:
首頁 > 知識 > 程序員自編的中華古詩詞資料庫在GitHub上火了!

程序員自編的中華古詩詞資料庫在GitHub上火了!

今天,給大家推薦一個GitHub上的一個熱門項目——Chinese-poetry ,截至今日,該項目已經獲得了 9700 個「star」以及 1383 個「fork」。

該詩詞資料庫包含5.5萬首唐詩、26萬首宋詩和2.1萬首宋詞。唐宋兩朝近 1.4萬古詩人,和兩宋時期1500位詞人,數據均來源於互聯網。(項目地址:https://github.com/chinese-poetry/chinese-poetry)

數據分發形式

該項目中的古詩數據分發採用繁體字的分組JSON文件,保留繁體能更大程度地保存原數據。宋詞數據分發採用sqlite資料庫,使用簡體字。

其他類型結構數據

chinese-poetry / chinese-poetry-zhCN 簡體中文版本數據(鏈接:https://github.com/chinese-poetry/chinese-poetry-zhCN)

KomaBeyond / chinese-poetry-mysql 適用於mysql資料庫的格式數據(鏈接:https://github.com/KomaBeyond/chinese-poetry-mysql)

轉換資料庫格式工具

chinese-poetry-to-mysql-tool 轉換成sql文件的腳本(鏈接:https://github.com/woodylan/chinese-poetry-to-mysql-tool)

古詩JSON結構

[

{

"strains": [

"平平平仄仄,平仄仄平平。",

"仄仄平平仄,平平仄仄平。",

"平平平仄仄,平仄仄平平。",

"平仄仄平仄,平平仄仄平。"

],

"author":"太宗皇帝",

"paragraphs": [

"秦川雄帝宅,函谷壯皇居。",

"綺殿千尋起,離宮百雉餘。",

"連甍遙接漢,飛觀迥凌虛。",

"雲日隱層闕,風煙出綺疎。"

],

"title":"帝京篇十首 一"

},

... 每單個JSON文件1000條唐詩記錄.

]

作者JSON結構

[

{

"name":"太宗皇帝",

"desc":"帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。"

},

...

]

數據分析

案例展示

除此之外,在GitHub頁面,你還可以找到案例展示,如下:

animalize / QuanTangshi 離線全唐詩 Android(鏈接:https://github.com/animalize/QuanTangshi)

詩詞周曆

chinese-poetry / poetry-calendar 詩詞周曆(鏈接:http://shici.store/poetry-calendar/)

詩詞桌面

okcy1016 / poetry-desktop 詩詞桌面(鏈接:https://github.com/okcy1016/poetry-desktop/)

網友評論:

@猴猴猴要好好讀書THU:像是程序員乾的事…就怕你們這些人有文化…

@two3in2K:想到了 「2018」里的詩云

@xsp:中華文化博大精深,果斷收藏了

@我是豆豆啊豆豆:「人間」真是個永恆的話題啊···

@逗猿一顆:最怕程序員有文化

-END-

轉載聲明:本文轉載自「頂級程序員 」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 程序員之家 的精彩文章:

如何把安靜的程序員逼成話嘮
如何判斷程序員是在裝逼還是有真本事?

TAG:程序員之家 |