Pergunta

Digamos que você queira levar os dados fonéticos da CMU definir a entrada que esta aparência:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(A palavra é para a esquerda, para a direita são uma série de fonemas, chave aqui )

E você quiser usá-lo como dados de treinamento para um sistema de aprendizagem de máquina que levaria novas palavras e acho que como eles seria pronunciado em Inglês.

Não é tão óbvio para mim, pelo menos, porque não há um tamanho de token fixa de cartas que poderia possível mapa para um fonema. Tenho a sensação de que algo a ver com uma cadeia de Markov pode ser o caminho certo a seguir.

Como você faria isso?

Foi útil?

Solução

O problema é chamado de conversão grafema-to-fonema, um subproblema de Natural Language Processing . Google traz alguns papéis.

Outras dicas

Não inteiramente meu campo, mas talvez construir uma rede neural com várias camadas - camadas anteriores de adivinhar a divisão das palavras em sílabas sequenciais, as camadas posteriores de adivinhar a pronúncia do referido sílabas

.

Configurar uma rede neural ANFIS-learning é razoavelmente simples para dados numéricos, para dados literais / fonética a tarefa é, sem dúvida, várias ordens mais complexa.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top