Domanda

sto scrivendo un semplice Elman ricorrente Network. Voglio dare sequenze di parole, in cui ogni parola è una sequenza di fonemi, e voglio un sacco di dati di allenamento e di test.

Allora, che cosa ho bisogno è un corpus di parole inglesi, insieme con i fonemi che stanno costituiti, scritto come qualcosa di simile ARPAbet o SAMPA. Inglese britannico sarebbe bello, ma non è essenziale fino a quando so cosa ho a che fare. Qualche suggerimento?

io non attualmente hanno il tempo o la voglia di qualcosa di codice che deriva i fonemi una parola è composta da da dati dette o scritte quindi per favore non propongono questo.

Nota: Sono consapevole del CMU Pronouncing Dizionario , ma sostiene si basa solo sul simbolo set ARPABet - qualcuno sa se ci sono effettivamente delle differenze e se sì, quali sono? (Se non ce ne sono poi ho potuto solo uso questo ...)

EDIT: CMUPD 0.7a lista Simbolo - le vocali possono avere lo stress lessicale, e ci sono varianti (di simboli standard ARPABET) che indicano questo

.
È stato utile?

Soluzione

CMUdict dovrebbe andare bene. "Simbolo set Arpabet" significa solo Arpabet. Se ci sono piccole differenze, devono essere spiegati nella documentazione CMUdict.

Se avete bisogno di dati che è più vicino alla vita reale di concatenare pronunce del dizionario di singole parole, cercare foneticamente trascritto corpora, per esempio, TIMIT.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top