質問

私はエルマン単純再帰ネットワークを書いています。私はそれが各単語は、音素のシーケンスである言葉、のシーケンス与えたい、と私はトレーニングやテストデータの多くを望んます。

だから、私は必要なものARPAbetまたはSAMPAのようなものとして書かれ、一緒に彼らはから成っている音素で、英語の単語のコーパスです。イギリス英語にはいいことが、あまりにも長い間、私は私が扱ってるものを知っているように必須ではないでしょう。任意の提案ですか?

私は現在、派生コード何かに時間や傾きを持っていない単語が話されたり、書き込まれたデータから構成されように提案しないでください音素ます。

注:私は CMU発音辞書のを知っています、しかし、それは、それが唯一のARPABetシンボルセットに基づいていると主張 - 任意の違いは、実際に存在する場合、誰が知っているし、彼らが何であるかもしそうなら? (任意のその後がない場合、私はちょうどそれを...使用することができます)。

EDIT:CMUPD 0.7A シンボルリスト - 。母音は字句ストレスを有していてもよく、およびこれを示す(ARPABET標準シンボルの)バリエーションがあります。

役に立ちましたか?

解決

CMUdict問題ないはずです。 「Arpabetシンボルセットは」ただArpabetを意味します。すべてのマイナーの違いがある場合、それらはCMUdict文書で説明する必要があります。

あなたは近い現実の生活に合わせて個々の単語の辞書の発音を架線よりのデータ、音訳コーパスのために見て、例えば、TIMITます。

が必要な場合
scroll top