Корпус слов / фонем для Elman SRN (английский)
-
27-10-2019 - |
Вопрос
Я пишу Простую рекуррентную сеть Элмана.Я хочу дать ему последовательности слов, где каждое слово представляет собой последовательность фонем, и мне нужно много обучающих и тестовых данных.
Итак, что мне нужно, так это корпус английских слов вместе с фонемами, из которых они состоят, записанный как что-то вроде ARPAbet или SAMPA.Британский английский был бы хорош, но это не обязательно, пока я знаю, с чем имею дело.Есть какие-нибудь предложения?
В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте этого.
Примечание:Я осведомлен о Словарь произношения CMU, но он утверждает, что основан только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия, и если да, то в чем они заключаются?(Если таковых нет, то я мог бы просто использовать это ...)
Редактировать:CMUPD 0,7а Список символов - гласные могут иметь лексическое ударение, и существуют варианты (стандартных символов ARPABET), указывающие на это.
Решение
CMUdict должен быть в порядке."Набор символов Arpabet" просто означает Arpabet.Если есть какие-либо незначительные различия, они должны быть объяснены в документации CMUdict.
Если вам нужны данные, более близкие к реальной жизни, чем сведение воедино словарных произношений отдельных слов, поищите фонетически транскрибированные корпуса, например, TIMIT.