Frage

Ich suche nach einer Datasets mit allen chinesischen Charakters Mandarin-Aussprachen in Bopomofo und / oder Pinyin.Ich brauche auch Open-Source-Datasets, die ich in meine eigenen Code-Basen kopieren kann.

War es hilfreich?

Lösung

Es klingt, als ob Sie möglicherweise nach der Unihan-Datenbank suchen. Die UNIHAN-Datenbank wird vom Unicode-Konsortium aufrechterhalten.

Die Unihan-Datenbank ist das Repository für das kollektive Wissen des Unicode-Konsortiums In Bezug auf die in der Unicode-Norm enthaltenen CJK Unified ideographs. Es beinhaltet Mapping-Daten, um die Umwandlung in und von anderen codierten Zeichensätzen und zusätzlich zu ermöglichen Informationen zur Unterstützung der Unterstützung für die verschiedenen Sprachen, die die HAN verwenden ideographisches Skript.

Beispielsweise ist hier die Daten für 爱 .

Hier ist die Beschreibung der Organisation und Inhalt der Unihan-Datenbank. Stellen Sie sicher, dass Sie das lesen, um zu verstehen, worauf sich die Daten beziehen.

Wenn dies die gewünschten Informationen ist, können Sie das ZIP-Archiv herunterladen das enthält alle diese Daten.

Die Unihan-Datenbank hat keine Bopomofo-Aussprachen (Zhuyin), aber es hat Pinyin-Messungen. Die Umwandlung von Pinyin nach Zhuyin ist einfach; Es gibt viele Online-Tools, die es für Sie tun können.

Wie für Lizenzprobleme verfügen die Unihan-Datenbankdateien mit den Unihan-Datenbankdateien ein liberaler Copyright-Hinweis . Sie sollten also keine Probleme mit diesen Daten in Ihrer eigenen Software ausführen.

Andere Tipps

Dies ist ein bisschen verspäteter Einstieg, aber ich suchte letztes Jahr nach der gleichen Sache und landete mit meinem eigenen Charakter / Bopomofo-Datenbank basierend auf einem Bündel verschiedener Datensätze.Ich habe genug Arbeit in dieses Ding gesetzt, um es gründlich als meine eigene zu nennen, damit Sie es überprüfen sollten!Sein Teil eines Rubygemas, den ich von Bopomofo sortiert habe (ich hatte ein System, das mich nicht die Kolleleinstellungen der Datenbank ändern ließ) https://github.com/nallan/ab-chi

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top