Reconnaissance vocale Java

https://stackoverflow.com/questions/609528

03-07-2019
|

Question

Y a-t-il des personnes qui ont de l'expérience avec une API open source ou une API de reconnaissance vocale relativement bon marché pour Java? Je suis à la recherche de quelque chose qui transformera les mots parlés en texte.

D'après la page de reconnaissance vocale java sur Sun, il semble que ce soit quelque chose de plutôt mort. Mes exigences sont quelque chose qui fonctionne au moins sur Linux.

Quelqu'un peut-il recommander quelque chose? Pure Java serait un bonus, sinon une solution basée sur Linux pourrait être envisagée. Et comme il s’agit d’un projet de maison, le moins cher est le mieux.

Modifier

Sphinx de la CMU Comme Amit l’a souligné, CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Mon problème est un taux d'erreur de mot massif. La formation me semble être un projet à part entière, j’espère rassembler des forces pour l’essayer ce week-end.

IBM ViaVoice
Pour 2004, des annonces ont été publiées sur la Via Voice en libre accès . Il semble que le communiqué de presse était prématuré et que cela ne s'est jamais produit. VIA Voice a été publié pour Linux à un moment donné, mais Il semble qu'ils se soient arrêtés. Il ne semble rester que viaVoice embedded sur le site Web d'IBM.

IBM Websphere Voice

J'imagine que c'est la raison pour laquelle ViaVoice (ordinateur de bureau) semble abandonné. IBM a créé cette solution commerciale qui coûtera plus qu'un bras et une jambe. Et juste l’utiliser prendra ceux qui vous restent, du moins après mon expérience avec websphere et leur IDE.

Nuance
Il semble qu'ils pourraient toujours créer des produits pour Linux. Mais je pense qu'ils se sont perdus et ont suivi IBM sur le marché des serveurs. Je ne suis pas sûr de cela, leur site Web n’est pas très convivial pour trouver des informations utiles.

esprit ouvert / liberté d'expression
Ces gars continuent à changer le nom de leur projet. Probablement une entreprise avide d'argent continue de les menacer, mais je ne sais pas. Le projet a l'air un peu mort.

Je pourrais essayer d’entraîner Sphinx ce week-end pour voir s’il veut être ami. Sinon, je vais utiliser la solution vocale de Microsoft. Cela a bien fonctionné pour moi dans le passé, mais ce n’est pas une excellente solution Linux. Je pourrais probablement l'utiliser avec du vin, mais j'aurai ensuite deux serveurs distincts ... en désordre.

Oh, et ce qui semble être un bon endroit pour la voix / discours, SpeechTechMag . Ils ont une "référence annuelle" qui contient une liste d’entreprises qui se rapportent d’une certaine manière à la voix.

La solution

Principalement Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php

Autres conseils

sphinx est de loin la meilleure option disponible pour les petits budgets. Cependant, cela fait également une énorme différence entre les modèles que vous utilisez, la façon dont vous les accordez et la manière dont vous réglez votre source audio. absolument tout doit correspondre sinon cela ne fonctionnera pas. Étant donné le problème que vous avez décrit, soyez prêt à parier une somme substantielle sur vos modèles et votre micro n'est pas correctement calibré. de plus, si vous avez un accent, cela ne fonctionnera probablement pas - ce n'est pas un problème avec le décodeur mais avec les modèles acoustiques - si personne avec une voix / un accent similaire au vôtre n'a été inclus dans les données d'entraînement, vous obtiendrez des résultats médiocres. .

Cela dit, avez-vous consulté leur page de modèles open source?

http://www.speech.cs.cmu.edu/sphinx/ modèles /

En fonction de ce que vous essayez de faire, vous devriez être capable d’obtenir une précision de parole de 90% avec les modèles WSJ à 16 kHz et le NVP du gigaword LM. Je préviens toutefois que la RSA est une entreprise de grande envergure qui n’a pas encore atteint le statut de marchandise.

vous pouvez télécharger vPass (mot de passe vocal) à partir de http://www.basic-signalprocessing.com .

Pour la voix au format (vText), je peux envoyer le fichier vText.jar à votre adresse électronique. Veuillez en informer enquiry@basic-signalprocessing.com

Les composants sont conçus pour les langages Java et .Net. La période de reconnaissance est de 5 secondes. VPass est bien testé vText n’est pas, encore nouveau, c’est pourquoi il n’a pas encore été emballé.

salutations Andreas

Je recherche la même chose depuis quelques jours maintenant. Jusqu'à présent, j'ai trouvé Sphinx4 et FreeTTS. Les deux sont des implémentations Java et Sphinx semble être mis à jour assez fréquemment contrairement à FreeTTS. Le seul problème que je rencontre est que Sphinx a des problèmes pour me comprendre dans un environnement de bureau et que j'ai besoin d'une solution pour un environnement d'entrepôt.

Mon groupe a terminé un mini-programme en Java pour reconnaître les chiffres prononcés à l'aide du Sphinx .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow