Pergunta

Estou à procura de conjuntos de dados com todas as pronúncias do mandarim de caracteres chineses em Bopomofo e / ou Pinyin.Além disso, preciso de conjuntos de dados de código aberto que posso copiar para minhas próprias bases de código.

Foi útil?

Solução

Parece que você pode estar procurando pelo banco de dados do Unihan. O banco de dados do Unihan é mantido pelo consórcio Unicode.

.

O banco de dados do Unihan é o repositório para o conhecimento coletivo do Consórcio Unicode Em relação aos ideógrafos unificados CJK contidos no padrão Unicode. Contém mapeando os dados para permitir a conversão e outros conjuntos de caracteres codificados e informações para ajudar a implementar o suporte para os vários idiomas que usam o HAN script ideográfico.

Para um exemplo, aqui é os dados para 爱 .

Aqui é A descrição da organização e conteúdo do banco de dados do Unihan. Certifique-se de ler que para entender o que os dados estão se referindo.

Se esta é a informação que você deseja, você pode Baixe o arquivo zip que contém todos esses dados.

O banco de dados do Unihan não tem pronúncias de Bopomofo (Zhuyin), mas tem leituras de pinyin. Conversão de Pinyin para Zhuyin é simples; Há muitas ferramentas on-line que podem fazer isso por você.

Como para problemas de licenciamento, os arquivos de dados do banco de dados do Unihan têm um aviso de direitos autorais liberais . Então, você não deve ter problemas em usar esses dados em seu próprio software.

Outras dicas

Isso é um pouco de entrada tardia, mas eu estava procurando a mesma coisa no ano passado e acabei compilando meu próprio banco de dados de personagem / bopopofo com base em um monte de diferentes conjuntos de dados.Eu coloquei trabalho suficiente nessa coisa para chamá-lo completamente do meu próprio, então você deve dar uma olhada!Sua parte de um rubygem que eu fiz para classificar por bopomofo (eu tinha um sistema que não me deixaria mudar o banco de dados colaltion configurações) https://github.com/nallan/ab-chi

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top