سؤال

وأنا أكتب على علمان بسيط المتكررة الشبكة. أريد أن تعطيه تسلسل الكلمات، حيث كل كلمة هي سلسلة من الفونيمات، وأريد الكثير من البيانات التدريب والاختبار.

وهكذا، ما تحتاجه هو الإحضار من الكلمات الإنجليزية، جنبا إلى جنب مع الفونيمات انهم تتكون من، كما هو مكتوب شيء من هذا القبيل ARPAbet أو SAMPA. أن اللغة الإنجليزية البريطانية أن يكون لطيفا ولكن ليس من الضروري طالما أنا أعرف ما أنا بصدده. أي اقتراحات؟

وليس لدي حاليا الوقت أو الميل إلى رمز شيء يستمد الصوتيات وتتألف كلمة من البيانات منطوقة أو مكتوبة لذا يرجى لا يقترح ذلك.

ملحوظة: أنا على بينة من جامعة كارنيجي ميلون قاموس نطق ، لكنها تدعي أنها تقوم فقط على مجموعة رمز ARPABet - أحد يعرف إذا كان هناك في الواقع أي اختلافات وإذا كان الأمر كذلك ما هي عليه؟ (إذا لم تكن هناك أي ثم أتمكن من مجرد استخدام ذلك ...)

وتحرير: CMUPD 0.7A رمز القائمة - قد يكون أحرف العلة الإجهاد المفردات، وهناك متغيرات (الرموز القياسية ARPABET) تشير هذه

.
هل كانت مفيدة؟

المحلول

يجب أن يكون

وCMUdict غرامة. "Arpabet رمز مجموعة" يعني فقط Arpabet. إذا كان هناك أي اختلافات طفيفة، ينبغي أن تكون أوضح في وثائق CMUdict.

إذا كنت في حاجة إلى بيانات هذا أقرب إلى واقع الحياة من التوتير معا المنطوقة القاموس من كلمات فردية، للبحث عن صوتيا كتب المجاميع، على سبيل المثال، TIMIT.

scroll top