Comment démarrer avec la synthèse vocale ?

https://stackoverflow.com/questions/14837

08-06-2019
|

Question

Je suis vraiment intéressé par les algorithmes de synthèse vocale, mais je ne sais pas par où commencer à les étudier.Un tas de recherches m'ont amené à ce, mais cela date de 1996 et je suis presque certain qu'il y a eu des améliorations depuis.

Quelqu'un ayant une expérience avec ce genre de choses a-t-il des recommandations de lecture/de code source à examiner ?Ou simplement des conseils généraux sur ce que je devrais essayer d'apprendre si je veux me lancer dans le monde de l'écriture de programmes de reconnaissance vocale (il est parfois difficile de savoir quoi rechercher si vous n'avez pas beaucoup de connaissances sur le domaine).

Modifier:J'aimerais faire quelque chose de multiplateforme, mais pour le moment je ciblerais Linux.

Modifier 2 :Merci csmba pour la réponse réfléchie.À l'heure actuelle, je suis principalement intéressé par la possibilité de créer des applications permettant l'automatisation ou l'exécution de différentes commandes vocales.Ainsi, un nombre limité de commandes reconnaissables pouvant être enchaînées.Un exemple serait un lecteur de musique qui prenait des commandes telles que « Lire l'album Hello Everything de Squarepusher » ou un lanceur d'applications permettant à l'utilisateur de créer des raccourcis vocaux pour lancer des applications spécifiques.

Je me rends compte qu'il s'agit d'un problème assez géant et que je suis loin d'avoir le niveau de connaissances requis à l'heure actuelle pour aborder la mise en œuvre d'un moteur de reconnaissance complet, même si les techniques impliquées me fascinent et que c'est quelque chose sur lequel j'aimerais travailler. moi-même prêt à le faire.Selon toute vraisemblance, je finirai probablement par lire un livre ou deux sur le sujet et étudier/jouer avec des implémentations "simples" pendant mon temps libre.

La solution

C'est une ÉNORME question, je ne saurais pas par où commencer...Alors laissez-moi juste essayer de vous donner les bons « termes » afin que vous puissiez affiner votre quête :

Tout d’abord, comprenez que la reconnaissance vocale est un sujet diversifié et complexe, et qu’elle a de nombreuses applications différentes.Les gens ont tendance à mapper ce domaine à la première chose qui leur vient à l’esprit (généralement, ce sont des ordinateurs qui comprennent ce que vous dites, comme dans les systèmes IVR).Distinguons donc d’abord le concept en catégories principales :

Humain-à-Machine : Applications qui visent à comprendre ce qu'un humain dit, mais l'humain sait qu'il parle à une machine et le grammaire est très limité.Les exemples sont

Automatisation informatique
Spécialisé:Pilotes automatisant certains contrôles par exemple (le bruit est un énorme problème)
Systèmes IVR (Interactive Voice Response) comme Google-411 ou lorsque vous appelez la banque et que l'ordinateur de l'autre côté dit "dites 'service' pour obtenir le service client"

d'humain à humain (Discours spontané) :Il s’agit d’un problème plus vaste et plus complexe.Ici, nous pouvons également le décomposer en différentes applications :

Centre d'appel:conversation entre Agent-Client, qualité téléphonique, compressée
Intelligence:conversations radio/téléphone/en direct entre 2 personnes ou plus

Maintenant, Speech-To-Text n'est pas ce que vous devriez dire et qui vous intéresse.Ce qui vous importe, c'est de résoudre un problème.Différentes technologies sont utilisées pour résoudre différents problèmes.Voir un aperçu ici de certains d'entre eux.pour résumer, d'autres approches sont la transcription phonétique, le LVCSR et la base directe.

De plus, êtes-vous intéressé à devenir le doctorant derrière la technologie ?vous auriez besoin d'un équivalent Master impliquant Traitement de signal et probablement un doctorat pour être à la pointe.Dans ce cas, vous travaillerez pour une entreprise qui développe le véritable moteur vocal.Des entreprises comme Nuance et IBM sont les plus grandes, mais il existe également Phillips et d'autres startups.

D'un autre côté, si vous voulez être celui qui implémente des applications, vous ne travaillerez pas sur le moteur, mais sur la création d'applications qui UTILISENT le moteur.Une bonne analogie, je pense, est celle de l'industrie du jeu :Développez-vous le moteur graphique (comme le moteur Cry) ou travaillez-vous sur l'un des plusieurs centaines de jeux qui utilisent tous le même moteur graphique ?

Ne vous méprenez pas, il y a beaucoup à travailler sur la qualité de la recherche également en dehors du monde IBM/Nuance.Le moteur est généralement très ouvert et de nombreux ajustements algorithmiques doivent être effectués qui peuvent affecter considérablement les performances.Chaque application métier a des contraintes et une fonction coût/bénéfice différentes, vous pouvez donc faire des expériences pendant de nombreuses années pour créer de meilleures applications basées sur la reconnaissance vocale.

encore une chose :en général, vous voudriez également avoir de bonnes statistiques, plus vous souhaitez être bas dans la pile.

À l'heure actuelle, je suis principalement intéressé par la possibilité de créer des applications permettant l'automatisation

Bien, nous convergeons ici...Alors vous n'avez aucun intérêt pour le "Speech-to-Text".Ces mots à la mode vous emmènent dans le monde de la transcription complète, un endroit où vous n'avez pas besoin d'aller.Vous devriez vous concentrer sur certaines des technologies les plus humaines comme la voix XML et celles utilisées dans les systèmes IVR (Nuance est le plus grand acteur dans ce domaine).

Autres conseils

Je recommanderais certainement de ramasser un livre ou deux si vous êtes nouveau dans le domaine.Je n'ai aucune expérience dans le domaine, je ne peux donc pas faire de recommandation.Si vous êtes encore à l'université (ou si vous avez encore des liens étroits), vous devriez savoir si l'un de vos professeurs peut vous faire une recommandation.

L'enquête que vous avez liée est probablement également une excellente ressource.Je suis sûr que des progrès ont été réalisés depuis 1996, mais il est peu probable que les bases aient fondamentalement changé.Si l’enquête est bien rédigée, cela vaudrait la peine de la lire.

Pour OS X, consultez ceci : Technologies vocales OS X

Pour Windows, regardez ceci : API vocale Microsoft

j'ai travaillé avec Produit ViaVoice d'IBM.Il dispose d’un bon moteur ASR (reconnaissance vocale automatisée) et d’un joli moteur de synthèse vocale.

Les sites web ne sont pas très bons, mais ceci est un lien pour la version embarquée http://www-01.ibm.com/software/voice/support/

Cependant, il est indépendant de la plate-forme et tout fonctionne via une architecture MVC utilisant vxml, une variante de XML à des fins vocales.

Quelle plateforme ciblez-vous ?.Il y a API Microsoft Speech que vous pouvez utiliser si c'est pour Windows.

Il y a aussi le Service de reconnaissance vocale Pour Android.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow