Word / fonema Corpus per Elman SRN (in inglese)

https://stackoverflow.com/questions/7328997

27-10-2019
|

Domanda

sto scrivendo un semplice Elman ricorrente Network. Voglio dare sequenze di parole, in cui ogni parola è una sequenza di fonemi, e voglio un sacco di dati di allenamento e di test.

Allora, che cosa ho bisogno è un corpus di parole inglesi, insieme con i fonemi che stanno costituiti, scritto come qualcosa di simile ARPAbet o SAMPA. Inglese britannico sarebbe bello, ma non è essenziale fino a quando so cosa ho a che fare. Qualche suggerimento?

io non attualmente hanno il tempo o la voglia di qualcosa di codice che deriva i fonemi una parola è composta da da dati dette o scritte quindi per favore non propongono questo.

Nota: Sono consapevole del CMU Pronouncing Dizionario , ma sostiene si basa solo sul simbolo set ARPABet - qualcuno sa se ci sono effettivamente delle differenze e se sì, quali sono? (Se non ce ne sono poi ho potuto solo uso questo ...)

EDIT: CMUPD 0.7a lista Simbolo - le vocali possono avere lo stress lessicale, e ci sono varianti (di simboli standard ARPABET) che indicano questo

Soluzione

CMUdict dovrebbe andare bene. "Simbolo set Arpabet" significa solo Arpabet. Se ci sono piccole differenze, devono essere spiegati nella documentazione CMUdict.

Se avete bisogno di dati che è più vicino alla vita reale di concatenare pronunce del dizionario di singole parole, cercare foneticamente trascritto corpora, per esempio, TIMIT.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow