문제

당신이 가져 가고 싶다고 말하십시오 CMU의 발음 데이터 세트 다음과 같이 보이는 입력 :

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(단어는 왼쪽에 있고 오른쪽에는 일련의 음소가 있습니다. 여기서 키)

또한 새로운 단어를 가져 와서 영어로 어떻게 발음 될지 추측하는 기계 학습 시스템의 교육 데이터로 사용하고 싶습니다.

적어도 음소에 맵핑 할 수있는 고정 된 토큰 크기의 문자 크기가 없기 때문에 적어도 나에게는 분명하지 않습니다. 나는 Markov 체인과 관련이있는 것이 올바른 방법이라고 생각합니다.

어떻게 하시겠습니까?

도움이 되었습니까?

해결책

문제는 Grapheme-to-Phoneme 변환이라고합니다. 자연어 처리. Google 일어나는 몇 가지 논문.

다른 팁

전적으로 내 분야가 아니라 여러 층이있는 신경망을 구축 할 수 있습니다. 이전 레이어를 순차적 음절로 분할하는 것을 추측하기 위해, 이후의 층은 상기 음절의 발음을 추측합니다.

anfis- 러닝 신경망을 설정하는 것은 수치 데이터에 대해 매우 간단합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top