字/音素语料库的埃尔曼SRN(英文)
-
27-10-2019 - |
题
我在写一个简单的Elman递归网络。我想给它的话,其中每一个字是音素的序列的序列,也想了很多的训练和测试数据。
所以,我需要的是英语单词的语料库,与他们做的最多的音素,写成像ARPAbet或SAMPA在一起。英式英语将是很好的,但不是必需的,只要我知道我处理。任何建议?
我现在还没有时间或倾向代码的东西,导出一个字从口头或书面数据由音素,所以请不要建议。
注:我知道的 CMU读音词典的,但它声称它只是基于ARPABet符号集 - 任何人都知道,如果确实存在任何差异,如果是的话,他们是什么? (如果没有任何话,我可以只使用...)
编辑:CMUPD 0.7A 符号列表一> - 元音可以具有词法应力,并有(ARPABET标准符号)的变体,用于指示此
。解决方案
CMUdict应该罚款。 “Arpabet符号集”只是意味着Arpabet。如果存在任何微小差异,它们应该在CMUdict文档中进行说明。
如果您需要更接近于现实生活中不是个别单词,找音素转录语料库,例如,TIMIT。
词典发音串在一起数据不隶属于 StackOverflow