Pregunta

Estoy buscando conjuntos de datos con todas las pronunciaciones en Chinese Chinese Mandarin en Bopomofo y / o Pinyin.Además, necesito conjuntos de datos de código abierto que pueda copiar en mis propias bases de código.

¿Fue útil?

Solución

Suena como si pudieras estar buscando la base de datos UNIHAN. La base de datos UNIHAN es mantenida por el consorcio Unicode.

La base de datos UNIHAN es el repositorio para el conocimiento colectivo del consorcio de Unicode con respecto a los Ideografos unificados CJK contenidos en el estándar Unicode. Contiene Mapeo de datos para permitir la conversión y de otros conjuntos de caracteres codificados y adicionales Información para ayudar a implementar el soporte para los diversos idiomas que usan el HAN guión ideográfico.

Para un ejemplo, aquí es los datos para 爱 .

aquí es la descripción de la organización y contenido de la base de datos de UNIHAN. Asegúrese de leer eso para entender a qué se refiere los datos.

Si esta es la información que desea, puede descargar el archivo zip que contiene todos estos datos.

La base de datos UNIHAN no tiene pronunciaciones de Bopomofo (Zhuyin), pero tiene lecturas de Pinyin. Convertir de pinyin a zhuyin es simple; Hay muchas herramientas en línea que pueden hacerlo por usted.

En cuanto a los problemas de licencias, los archivos de datos de la base de datos UNIHAN tienen una un aviso de copyright liberal . Por lo tanto, no debe tener problemas para usar los datos en su propio software.

Otros consejos

Este es un poco de entrada tardía, pero estaba buscando lo mismo el año pasado y terminé compilando la base de datos de mi propio carácter / Bopomofo basado en un montón de diferentes conjuntos de datos.¡He puesto suficiente trabajo en esta cosa para llamarlo a fondo, aunque debes revisarlo!su parte de un rubygem que hice para ordenar por Bopomofo (tuve un sistema que no me permitiría cambiar la configuración de la base de bases de colalción) https://github.com/nallan/ab-chi

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top