Domanda

Dire che si desidera prendere i dati fonetici del CMU impostare input che assomiglia a questo:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(La parola è a sinistra, a destra sono una serie di fonemi, chiave qui )

E che si desidera utilizzare come dati di allenamento per un sistema di apprendimento automatico che avrebbe preso nuove parole e indovinare come sarebbero pronunciati in inglese.

Non è così ovvio per me almeno, perché non c'è un dimensione del token fisso di lettere che potrebbe possibile mappa per un fonema. Ho la sensazione che qualcosa a che fare con una catena di Markov potrebbe essere la strada giusta da percorrere.

Come si dovrebbe fare questo?

È stato utile?

Soluzione

Il problema si chiama grafema-fonema conversione, un sottoproblema di Natural Language Processing . Google porta in primo piano alcuni documenti.

Altri suggerimenti

Non del tutto il mio campo, ma forse costruire una rete neurale con diversi strati -. Strati precedenti di indovinare la scissione delle parole in sillabe sequenziali, gli strati successivi di indovinare la pronuncia di dette sillabe

Configurazione di una rete neurale ANFIS-learning è abbastanza semplice per i dati numerici, per i dati letterali / fonetici il compito è senza dubbio diversi ordini più complesso.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top