Máquina desafío de aprendizaje: aprender la pronunciación del Inglés
-
21-08-2019 - |
Pregunta
Digamos que quiere tomar los datos fonéticos de CMU establecer de entrada que se parece a esto:
ABERRATION AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z
ABERT AE1 B ER0 T
ABET AH0 B EH1 T
ABETTED AH0 B EH1 T IH0 D
ABETTING AH0 B EH1 T IH0 NG
ABEX EY1 B EH0 K S
ABEYANCE AH0 B EY1 AH0 N S
(La palabra es a la izquierda, a la derecha hay una serie de fonemas, clave aquí )
Y que desea utilizar como datos de entrenamiento para un sistema de aprendizaje automático que tomaría nuevas palabras y adivinar cómo serían pronunciados en Inglés.
No es tan obvio para mí, al menos, porque no hay un tamaño de símbolo fijo de cartas que podría posible mapa para un fonema. Tengo la sensación de que algo que ver con una cadena de Markov puede ser el camino correcto a seguir.
¿Cómo hacer esto?
Solución
El problema se llama conversión de grafema-a fonema, un subproblema de Natural Language Processing . Google trae unos papeles.
Otros consejos
No del todo mi campo, pero tal vez construir una red neuronal con varias capas -. Capas anteriores de adivinar la división de las palabras en sílabas secuenciales, las capas posteriores de adivinar la pronunciación de dichas sílabas
La creación de una red neuronal ANFIS-aprendizaje es bastante sencillo para los datos numéricos, para los datos literales / fonéticos, sin duda, la tarea es varios órdenes más complejas.