字/音素语料库的埃尔曼SRN（英文）

https://stackoverflow.com/questions/7328997

27-10-2019
|

题

我在写一个简单的Elman递归网络。我想给它的话，其中每一个字是音素的序列的序列，也想了很多的训练和测试数据。

所以，我需要的是英语单词的语料库，与他们做的最多的音素，写成像ARPAbet或SAMPA在一起。英式英语将是很好的，但不是必需的，只要我知道我处理。任何建议？

我现在还没有时间或倾向代码的东西，导出一个字从口头或书面数据由音素，所以请不要建议。

注：我知道的 CMU读音词典的，但它声称它只是基于ARPABet符号集 - 任何人都知道，如果确实存在任何差异，如果是的话，他们是什么？（如果没有任何话，我可以只使用...）

编辑：CMUPD 0.7A 符号列表 - 元音可以具有词法应力，并有（ARPABET标准符号）的变体，用于指示此

解决方案

CMUdict应该罚款。 “Arpabet符号集”只是意味着Arpabet。如果存在任何微小差异，它们应该在CMUdict文档中进行说明。

如果您需要更接近于现实生活中不是个别单词，找音素转录语料库，例如，TIMIT。

词典发音串在一起数据

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow