Pregunta

Estoy escribiendo un simple Elman recurrente red. Quiero darle las secuencias de palabras, donde cada palabra es una secuencia de fonemas, y quiero una gran cantidad de datos de entrenamiento y de prueba.

Por lo tanto, lo que necesito es un corpus de palabras en inglés, junto con los fonemas que están formados por escrito, como algo parecido a ARPAbet o SAMPA. Inglés británico sería bueno, pero no es esencial siempre que sé de lo que estoy tratando. ¿Alguna sugerencia?

Yo actualmente no tienen el tiempo o la inclinación de código de algo que se deriva de los fonemas una palabra se compone de a partir de datos verbalmente o por escrito así que por favor no proponen eso.

Nota: No soy consciente de la CMU Diccionario pronunciando , pero afirma que sólo se basa en el conjunto de símbolos ARPABet - alguien sabe si en realidad hay diferencias y si es así lo que son? (Si no hay ninguno entonces sólo podía usar eso ...)

EDIT: CMUPD 0.7a Lista de símbolos - vocales pueden tener estrés léxico, y hay variantes (de ARPABET símbolos estándar) que indican este

.
¿Fue útil?

Solución

CMUdict debe estar bien. "Conjunto de símbolos Arpabet" sólo significa Arpabet. Si hay diferencias de menor importancia, deben ser explicadas en la documentación CMUdict.

Si necesita datos que está más cerca de la vida real que encadenar las pronunciaciones diccionario de palabras individuales, busca fonéticamente transcrito corpus, por ejemplo, TIMIT.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top