Question

J'écris un réseau récurrent simple Elman. Je veux donner des séquences de mots, où chaque mot est une séquence de phonèmes, et je veux beaucoup de données de formation et de test.

Alors, ce que je dois est un corpus de mots anglais, ainsi que les phonèmes dont ils sont constitués de, par écrit quelque chose comme ARPAbet ou SAMPA. Anglais britannique serait bien mais pas indispensable si longtemps que je sache ce que je fais face à. Toutes les suggestions?

Je n'ai pas le temps ni l'envie de quelque chose de code qui dérive le mot est un phonèmes comprend de données oralement ou par écrit si s'il vous plaît ne proposent pas.

Note: Je suis conscient du CMU Pronouncing Dictionnaire , mais il prétend qu'il est seulement basé sur le symbole ARPABet ensemble - que quelqu'un sait s'il y a effectivement des différences et si oui ce qu'ils sont? (S'il n'y en a pas alors je pouvais utiliser que ...)

EDIT: CMUPD 0.7a liste Symbole - voyelles peuvent avoir le stress lexical, et il existe des variantes (de symboles standards ARPABET) indiquant ce

.
Était-ce utile?

La solution

CMUdict should be fine. "Arpabet symbol set" just means Arpabet. If there are any minor differences, they should be explained in the CMUdict documentation.

If you need data that's closer to real life than stringing together dictionary pronunciations of individual words, look for phonetically transcribed corpora, e.g., TIMIT.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top