我在写一个简单的Elman递归网络。我想给它的话,其中每一个字是音素的序列的序列,也想了很多的训练和测试数据。

所以,我需要的是英语单词的语料库,与他们做的最多的音素,写成像ARPAbet或SAMPA在一起。英式英语将是很好的,但不是必需的,只要我知道我处理。任何建议?

我现在还没有时间或倾向代码的东西,导出一个字从口头或书面数据由音素,所以请不要建议。

注:我知道的 CMU读音词典的,但它声称它只是基于ARPABet符号集 - 任何人都知道,如果确实存在任何差异,如果是的话,他们是什么? (如果没有任何话,我可以只使用...)

编辑:CMUPD 0.7A 符号列表 - 元音可以具有词法应力,并有(ARPABET标准符号)的变体,用于指示此

有帮助吗?

解决方案

CMUdict应该罚款。 “Arpabet符号集”只是意味着Arpabet。如果存在任何微小差异,它们应该在CMUdict文档中进行说明。

如果您需要更接近于现实生活中不是个别单词,找音素转录语料库,例如,TIMIT。

词典发音串在一起数据
scroll top