今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词
乾明 发自 凹非寺
量子位 报道 | 公众号 QbitAI
收录5.5万首唐诗,超过28万首宋词,还囊括了诗经、论语、蒙学等……
这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。
截止发稿,这一项目已获得近2.5万标星,Fork超过4600,受欢迎度可见一斑。
项目发起者名为Jackey,在Teambition从事运维自动化工作。他解释了为什么要做这个仓库:
从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。
10大数据集
整个项目最核心的内容,就是数据集了。
目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。
这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。
为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。
围绕着数据库,他也进行了一个初步的词频分析:
但这些数据集的应用,远远不止于此。
8大案例展示
在项目中,作者也放上了使用数据集的应用案例。
有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗”,有简体唐诗生成(char-RNN),也诗词桌面和相关小程序等等。
而且这些项目,也大都在GitHub上开源了。
如果你有兴趣,可以收好传送门:
https://github.com/chinese-poetry/chinese-poetry
— 完 —
AI内参|把握AI发展新机遇
拓展优质人脉,获取最新AI资讯&论文教程,欢迎加入AI内参社群一起学习~

跟大咖交流 | 进入AI社群


量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 “努力为党和人民争取更大光荣” 7993329
- 2 残疾小伙捐19吨物资 账户剩5毛钱 7926954
- 3 21名小学生凑钱聚餐 老板主动补贴 7953144
- 4 花样新“夜”态点燃夏日文旅新引擎 7973290
- 5 朱雀玄武敕令再次申请改名被拒 7886608
- 6 中方有条件恢复日部分地区水产进口 7993323
- 7 陈建斌:不想在蒋勤勤面前落泪 7993308
- 8 以色列再爆发大规模抗议 7980025
- 9 考二本分想上一本家长被骗80多万 7900040
- 10 特朗普开会时夸非洲女记者:你真美 7973436