我正在寻找一个与bopomofo和/或拼音的所有汉字普通话发音的数据集。此外,我需要打开的源数据集可以复制到我自己的代码基础。

有帮助吗?

解决方案

听起来您可能正在寻找Unihan数据库。 Unihan数据库由Unicode Consortium维护。

Unihan数据库是Unicode Consortium集体知识的存储库 关于UNICODE标准中包含的CJK统一比特。它包含 映射数据以允许转换为其他编码字符集和其他 有助于实施支持使用汉族的各种语言的信息 表表脚本。

对于一个例子,这里是的数据。

此处是组织和内容的描述的Unihan数据库。务必阅读,以了解数据所指的内容。

如果这是您想要的信息,则可以下载zip存档包含所有这些数据。

unihan数据库没有bopomofo(zhuyin)发音,但它有拼音读数。从拼音转换为zhuyin很简单;有很多可以为您做的在线工具。

对于许可问题,Unihan数据库数据文件具有自由主义版权声明。因此,您不应该使用自己的软件中的数据遇到任何问题。

其他提示

这是一点延迟入口,但我去年搜索了同样的事情,并基于一堆不同的数据集来了解自己的字符/ bopomofo数据库。我已经把足够的工作融入了这件事,以便彻底称之为我自己,但你应该检查一下!它的一部分是一个rubygem我做的是bopomofo(我有一个没有让我改变数据库科罗利蒂设置的系统) https://github.com/nallan/ab-chi

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top