我在哪里可以找到汉字bopomofo /拼音数据？

https://stackoverflow.com//questions/21033508

21-12-2019
|

题

我正在寻找一个与bopomofo和/或拼音的所有汉字普通话发音的数据集。此外，我需要打开的源数据集可以复制到我自己的代码基础。

解决方案

听起来您可能正在寻找Unihan数据库。 Unihan数据库由Unicode Consortium维护。

Unihan数据库是Unicode Consortium集体知识的存储库关于UNICODE标准中包含的CJK统一比特。它包含映射数据以允许转换为其他编码字符集和其他有助于实施支持使用汉族的各种语言的信息表表脚本。

对于一个例子，这里是爱的数据。

此处是组织和内容的描述的Unihan数据库。务必阅读，以了解数据所指的内容。

如果这是您想要的信息，则可以下载zip存档包含所有这些数据。

unihan数据库没有bopomofo（zhuyin）发音，但它有拼音读数。从拼音转换为zhuyin很简单;有很多可以为您做的在线工具。

其他提示

这是一点延迟入口，但我去年搜索了同样的事情，并基于一堆不同的数据集来了解自己的字符/ bopomofo数据库。我已经把足够的工作融入了这件事，以便彻底称之为我自己，但你应该检查一下！它的一部分是一个rubygem我做的是bopomofo（我有一个没有让我改变数据库科罗利蒂设置的系统） https://github.com/nallan/ab-chi

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow