Pergunta

Eu estou escrevendo um simples Elman recorrente de rede. Eu quero dar-lhe sequências de palavras, onde cada palavra é uma seqüência de fonemas, e eu quero um monte de dados de treinamento e teste.

Então, o que eu preciso é um corpus de palavras em Inglês, juntamente com os fonemas que estão feitos de, escritos como algo como ARPAbet ou SAMPA. Inglês Britânico seria bom, mas não é essencial, desde que eu sei o que estou lidando. Alguma sugestão?

Eu não atualmente tem o tempo ou a inclinação para código algo que deriva os fonemas de uma palavra é composta da partir de dados orais ou escritas, por isso, não propor isso.

Nota: Estou ciente do CMU Pronunciar dicionário , mas afirma que só é baseado no conjunto de símbolos ARPABet - alguém sabe se há realmente alguma diferença e se assim o que são? (Se não houver nenhum, então eu poderia apenas usar isso ...)

EDIT: CMUPD 0.7A lista Símbolo - vogais podem ter acento lexical, e há variantes (de ARPABET símbolos padrão) indicando este

.
Foi útil?

Solução

CMUdict deve ser fino. "Símbolo Arpabet conjunto" significa apenas Arpabet. Se houver quaisquer pequenas diferenças, eles devem ser explicados na documentação CMUdict.

Se você precisar de dados que são mais próximas da vida real do que amarrando junto pronúncias dicionário de palavras individuais, procure transcritas foneticamente corpora, por exemplo, TIMIT.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top