كيف تبدأ مع تحويل الكلام إلى نص؟

https://stackoverflow.com/questions/14837

08-06-2019
|

سؤال

أنا مهتم حقًا بخوارزميات تحويل الكلام إلى نص، لكنني لست متأكدًا من أين أبدأ في دراستها.مجموعة من البحث قادني إلى هذا, ، ولكنه من عام 1996 وأنا متأكد تمامًا من حدوث تحسينات منذ ذلك الحين.

هل لدى أي شخص لديه أي خبرة في هذا النوع من الأشياء أي توصيات لقراءة/كود المصدر لفحصه؟أو مجرد نصيحة عامة حول ما يجب أن أحاول التعرف عليه إذا كنت أرغب في الدخول إلى عالم كتابة برامج التعرف على الكلام (أحيانًا يكون من الصعب معرفة ما الذي يجب البحث عنه إذا لم يكن لديك الكثير من المعرفة حول المجال).

يحرر:أرغب في القيام بشيء مشترك بين الأنظمة الأساسية، لكن في الوقت الحالي سأستهدف نظام التشغيل Linux.

تحرير 2:شكرا csmba على الرد المدروس.في هذا الوقت، أنا مهتم بشكل أساسي بالقدرة على إنشاء تطبيقات تسمح بالأتمتة أو تنفيذ أوامر مختلفة من خلال الصوت.لذلك، هناك عدد محدود من الأوامر التي يمكن التعرف عليها والتي يمكن ربطها معًا.ومن الأمثلة على ذلك مشغل الموسيقى الذي يتلقى أوامر مثل "تشغيل الألبوم Hello Everything بواسطة Squarepusher"، أو مشغل التطبيقات الذي يسمح للمستخدم بإنشاء اختصارات صوتية لتشغيل تطبيقات معينة.

أدرك أنها مشكلة كبيرة جدًا، وأنني لا أملك أي مستوى من المعرفة المطلوبة في الوقت الحالي للتعامل مع تنفيذ محرك التعرف بالكامل، على الرغم من أن التقنيات المستخدمة في القيام بذلك تبهرني، وهو شيء أود العمل عليه نفسي على القيام به.في جميع الاحتمالات، ربما سينتهي بي الأمر بقراءة كتاب أو كتابين حول هذا الموضوع ودراسة/اللعب بتطبيقات "بسيطة" في وقت فراغي.

المحلول

هذه أسئلة ضخمة، لا أعرف كيف أبدأ...لذلك اسمحوا لي أن أحاول إعطائك "المصطلحات" الصحيحة حتى تتمكن من تحسين مهمتك:

أولاً، افهم أن التعرف على الكلام هو موضوع متنوع ومعقد، وله العديد من التطبيقات المختلفة.يميل الأشخاص إلى ربط هذا المجال بأول ما يتبادر إلى أذهانهم (عادةً ما يكون هذا هو فهم أجهزة الكمبيوتر لما تقوله في أنظمة الرد الصوتي التفاعلي).لذلك دعونا أولاً نميز المفهوم في الفئات الرئيسية:

من الإنسان إلى الآلة: تطبيقات تعنى بفهم ما يقوله الإنسان، ولكن الإنسان يعرف أنه يتحدث إلى آلة والآلة قواعد محدودة للغاية.الأمثلة هي

أتمتة الكمبيوتر
متخصص:يقوم الطيارون بأتمتة بعض عناصر التحكم على سبيل المثال (الضوضاء مشكلة كبيرة)
أنظمة الرد الصوتي التفاعلي (IVR) مثل Google-411 أو عندما تتصل بالبنك ويقول الكمبيوتر على الجانب الآخر "قل "الخدمة" للحصول على خدمة العملاء"

من إنسان إلى إنسان (كلام عفوي):وهذه مشكلة أكبر وأكثر تعقيدًا.هنا يمكننا أيضًا تقسيمها إلى تطبيقات مختلفة:

مركز الاتصال:المحادثة بين الوكيل والعميل، جودة الهاتف، مضغوطة
ذكاء:المحادثات الإذاعية/ الهاتفية/ المباشرة بين شخصين أو أكثر

الآن، تحويل الكلام إلى نص ليس هو ما يجب أن تقوله والذي يهمك.ما يهمك هو حل المشكلة.يتم استخدام تقنيات مختلفة لحل المشكلات المختلفة.انظر لمحة عامة هنا من بعضهم.لتلخيص، الأساليب الأخرى هي النسخ الصوتي، LVCSR والمباشرة.

أيضًا، هل أنت مهتم بأن تكون دكتوراه وراء التكنولوجيا؟سوف تحتاج إلى ما يعادل الماجستير الذي يتضمن معالجة الإشارات وربما تكون درجة الدكتوراه في المقدمة.وفي هذه الحالة، ستعمل في شركة تقوم بتطوير الواقع محرك الكلام.شركات مثل Nuance وIBM هي الشركات الكبيرة، ولكن توجد أيضًا شركة Phillips وغيرها من الشركات الناشئة.

من ناحية أخرى، إذا كنت تريد أن تكون الشخص الذي ينفذ التطبيقات، فلن تعمل على المحرك، بل ستعمل على بناء التطبيقات التي تستخدم المحرك.أعتقد أن التشبيه الجيد هو صناعة الألعاب:هل تقوم بتطوير محرك الرسوميات (مثل محرك Cry)، أو تعمل على واحدة من عدة مئات من الألعاب، كلها تستخدم نفس محرك الرسوميات؟

لا تفهموني خطأ، هناك الكثير للعمل على جودة البحث أيضًا خارج IBM/Nuance في العالم.عادة ما يكون المحرك مفتوحًا للغاية، وهناك الكثير من التعديلات الخوارزمية التي يتعين القيام بها والتي يمكن أن تؤثر بشكل كبير على الأداء.يحتوي كل تطبيق أعمال على قيود مختلفة ووظيفة التكلفة/الفائدة، لذا يمكنك إجراء تجارب لسنوات عديدة لبناء تطبيقات أفضل تعتمد على التعرف على الصوت.

شيء اخر:بشكل عام، قد ترغب أيضًا في الحصول على خلفية إحصائية جيدة كلما كنت ترغب في الحصول على خلفية إحصائية أقل في المجموعة.

في هذا الوقت، أنا مهتم بشكل أساسي بالقدرة على إنشاء تطبيقات تسمح بالأتمتة

حسنًا، نحن نجتمع هنا...إذًا ليس لديك أي اهتمام بـ "تحويل الكلام إلى نص".تأخذك هذه الكلمات الطنانة إلى عالم النسخ الكامل، وهو مكان لا تحتاج للذهاب إليه.يجب أن تركز على بعض تقنيات الاتصال من الإنسان إلى الآلة مثل Voice XML وتلك المستخدمة في أنظمة الرد الصوتي التفاعلي (Nuance هو اللاعب الأكبر هناك)

نصائح أخرى

أود بالتأكيد أن أوصي بالتقاط كتاب أو اثنين إذا كنت جديدًا في هذا المجال.ليست لدي خبرة في هذا المجال، لذا لا يمكنني تقديم توصية.إذا كنت لا تزال في الكلية (أو لا تزال لديك علاقات وثيقة)، فيجب عليك معرفة ما إذا كان بإمكان أي من أساتذتك تقديم توصية.

من المحتمل أن يكون الاستطلاع الذي قمت بربطه مصدرًا ممتازًا أيضًا.أنا متأكد من أنه كانت هناك تطورات منذ عام 1996، ولكن من غير المرجح أن تكون الأساسيات قد تغيرت بشكل جذري.إذا كان الاستبيان مكتوبًا بشكل جيد، فسيكون من المفيد أن تقضي وقتك في قراءته.

بالنسبة لنظام التشغيل OS X، تحقق من هذا: تقنيات الكلام OS X

بالنسبة لنظام التشغيل Windows، تحقق من هذا: مايكروسوفت الكلام API

لقد عملت مع منتج آي بي إم ViaVoice.يحتوي على محرك ASR (التعرف الآلي على الكلام) جيد، ومحرك رائع لتحويل النص إلى كلام.

المواقع ليست جيدة جدًا، ولكن هذا رابط للإصدار المضمن http://www-01.ibm.com/software/voice/support/

ومع ذلك، فهي لا تعتمد على النظام الأساسي، وكل شيء يعمل من خلال بنية MVC باستخدام vxml وهو متغير من XML للأغراض الصوتية.

ما هي المنصة التي تستهدفها؟.هنالك واجهات برمجة تطبيقات الكلام لـ Microsoft التي يمكنك استخدامها إذا كانت مخصصة للنوافذ.

وهناك أيضا خدمة التعرف على الكلام لأجهزة الأندرويد.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow