Корпус слов / фонем для Elman SRN (английский)

https://stackoverflow.com/questions/7328997

27-10-2019
|

Вопрос

Я пишу Простую рекуррентную сеть Элмана.Я хочу дать ему последовательности слов, где каждое слово представляет собой последовательность фонем, и мне нужно много обучающих и тестовых данных.

Итак, что мне нужно, так это корпус английских слов вместе с фонемами, из которых они состоят, записанный как что-то вроде ARPAbet или SAMPA.Британский английский был бы хорош, но это не обязательно, пока я знаю, с чем имею дело.Есть какие-нибудь предложения?

В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте этого.

Примечание:Я осведомлен о Словарь произношения CMU, но он утверждает, что основан только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия, и если да, то в чем они заключаются?(Если таковых нет, то я мог бы просто использовать это ...)

Редактировать:CMUPD 0,7а Список символов - гласные могут иметь лексическое ударение, и существуют варианты (стандартных символов ARPABET), указывающие на это.

Решение

CMUdict должен быть в порядке."Набор символов Arpabet" просто означает Arpabet.Если есть какие-либо незначительные различия, они должны быть объяснены в документации CMUdict.

Если вам нужны данные, более близкие к реальной жизни, чем сведение воедино словарных произношений отдельных слов, поищите фонетически транскрибированные корпуса, например, TIMIT.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow