汉语转拼音工具、新华字典API——两个支持Python的中文资源

整理 | Jane
出品 | AI科技大本营
【导读】平常为大家推荐的资源中,以英语语言占据大多数。今天 AI科技大本营特别要为大家推荐两个跟中文相关的资源工具。先简单介绍下这两个资源工具都是什么。第一个,汉字转拼音的工具——即将中文字符转换成它的拼音。除了支持 JavaScript,还可以支持 Python、Go、Rust 等多种语言。可以说是非常 nice 的一个中文资源工具了。第二个是新华字典的 API,收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。有需要的同学可以收藏留着用,觉得不错记得分享点赞。
汉字转拼音工具
▌功能
将中文字符转换为拼音。可用于汉字注音、排序、检索任务。
▌特性
根据词组智能匹配最正确的拼音。
支持多音字。
简单的繁体支持, 注音支持。
支持多种不同拼音/注音风格。
▌支持版本
1.Node.js/JavaScript 版
注:这个版本同时支持在 Node 和 Web 浏览器环境运行;
作者:hotoo;来源:GitHub
https://github.com/hotoo/pinyin

2.Python 版
作者:mozillazg;来源:GitHub
https://github.com/mozillazg/python-pinyin

3. Go 版
作者:mozillazg;来源:GitHub
https://github.com/mozillazg/go-pinyin


4.Rust 版
作者:mozillazg;来源:GitHub
https://github.com/mozillazg/rust-pinyin


▌一些注意事项
1.为什么没有 y, w, yu 几个声母?
1>>> from pypinyin import Style, pinyin
2>>> pinyin('下雨天', style=Style.INITIALS)
3[['x'], [''], ['t']]
因为根据 《汉语拼音方案》, y,w,ü (yu) 都不是声母。
声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo
如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(FIRST_LETTER)。 —— @hotoo
参考:
hotoo/pinyin#57, #22, #27, #44
如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 strict=False , 这个可能会符合你的预期,详见 strict 参数的影响
1>>> from pypinyin import Style, pinyin
2>>> pinyin('下雨天', style=Style.INITIALS)
3[['x'], [''], ['t']]
4>>> pinyin('下雨天', style=Style.INITIALS, strict=False)
5[['x'], ['y'], ['t']]
2.拼音数据
单个汉字的拼音使用 pinyin-data 的数据
词组的拼音使用 phrase-pinyin-data 的数据
3.node 版和 web 版有什么异同?
pinyin 目前可以同时运行在 Node 服务器端和 Web 浏览器端。 API 和使用方式完成一致。但 Web 版较 Node 版稍简单,拼音库只有常用字部分,没有使用分词算法, 并且考虑了网络传输对词库进行了压缩处理。
由于分词和繁体中文的特性,部分情况下的结果也不尽相同。由于这些区别,测试不同运行环境的用例也不尽相同。
特性 | Web 版 | Node 版 |
拼音库 | 常用字库。压缩、合并 | 完整字库。不压缩、合并 |
分词 | 没有分词 | 使用分词算法,多音字拼音更准确。 |
拼音频度排序 | 有根据拼音使用频度优先级排序。 | 同 Web 版。 |
繁体中文 | 没有繁体中文支持。 | 有简单的繁简汉字转换。 |
更多详细安装与使用教程可访问 GitHub 链接进行访问~
各版本 GitHub 地址:
https://github.com/hotoo/pinyin
https://github.com/mozillazg/python-pinyin
https://github.com/mozillazg/go-pinyin
https://github.com/mozillazg/rust-pinyin
新华字典 API
▌介绍
作者本来的目的是想可以实现成语接龙,苦于没有现成可用的数据库,自己就从各个网站抓取整理了一份。所有的数据都作者从网上找的。放在 Github 是为了方便自己的使用,同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。
中华新华字典数据库和 API 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。所有的数据放在 data/ 目录。

▌数据库与 API 介绍
1.成语(idiom.json)



2.词语(ci.json)

3.汉字(word.json)


4.歇后语(xiehouyu.json)


使用可访问 GitHub 地址:
https://github.com/pwxcoo/chinese-xinhua
--【完】--
◆
好文推荐
◆


关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中共中央政治局召开会议 7904777
- 2 课本上明太祖画像换了 7809789
- 3 男子开保时捷跑顺风车 偷190块电瓶 7713349
- 4 8.85亿人次受益后 医保又出实招 7616326
- 5 近3成美国人承认结账时“顺手牵羊” 7522562
- 6 日本记者街头采访找不到中国游客 7429333
- 7 净网:网民造谣汽车造成8杀被查处 7327563
- 8 苟仲文受贿2.36亿余元一审被判死缓 7233732
- 9 外交部回应普京对中印关系评论 7140275
- 10 1岁多女童吊环上“开挂” 7042523







AI100
