Frage

Ich schreibe eine Elman Einfache Recurrent Netzwerk. Ich will, um ihn von Worten Sequenzen, wobei jedes Wort eine Folge von Phonemen ist, und ich möchte viel Training und Testdaten.

Also, was ich brauche, ist ein Korpus von englischen Worten, zusammen mit den Phonemen sie gemacht sind, aus, geschrieben als so etwas wie ARPAbet oder SAMPA. Britisches Englisch wäre schön, ist aber nicht notwendig, solange ich weiß, was mit mir zu tun habe. Irgendwelche Vorschläge?

ich momentan nicht die Zeit oder die Neigung zu Code etwas, dass leitet die Phoneme ein Wort von gesprochenen oder geschriebenen Daten besteht, so wenden Sie sich bitte schlagen sie nicht.

Hinweis: Ich bin mir bewusst, der CMU Pronouncing Wörterbuch , aber es behauptet, es nur auf dem ARPABet Symbolsatz basiert - jemand wissen, ob es tatsächlich Unterschiede, und wenn ja, was sie sind? (Wenn es keine gibt, dann könnte ich nur, dass verwenden ...)

EDIT: CMUPD 0.7a Liste Symbol - Vokale kann lexikalischen Stress hat, und es gibt Varianten (von ARPABET Standardsymbolen), die diese

.
War es hilfreich?

Lösung

CMUdict sollte in Ordnung sein. „Arpabet Symbolsatz“ bedeutet nur, Arpabet. Wenn es irgendwelche geringfügige Unterschiede sind, sollten sie in der CMUdict Dokumentation erklärt werden.

Wenn Sie Daten benötigen, die näher ist auf das wirkliche Leben als Aneinanderreihung Wörterbuch Aussprachen von einzelnen Wörtern, Blick nach klanglich transkribierten Korpora, zum Beispiel TIMIT.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top