Conversion parole en texte sous Linux

https://stackoverflow.com/questions/454664

19-08-2019
|

Question

Je prévois de démarrer une application qui convertit le discours en texte sous Linux. Y a-t-il des interfaces existantes pour que je puisse les étendre? ou existe-t-il une telle application existante sous Linux? Des entrées à ce sujet?

EDIT: L’application que j’ai l’intention d’écrire devrait pouvoir convertir chaque mot que nous parlons en texte, pas seulement le Oui / Non.

La solution

Eh bien, c’est tout à fait une entreprise et sans préciser quelle technologie vous souhaitez utiliser, voici quelques liens:

Reconnaissance vocale sur Wikipedia
API Java Speech
Spécification de la grammaire à reconnaissance vocale du W3C
Sphinx - Un moteur de reconnaissance open source écrit en Java

Bonne chance. Avec plus de détails, nous pourrons peut-être fournir de meilleures réponses. Par exemple, il existe une grande différence entre " yes / no " reconnaissance de type centre d’appel ou même compréhension partielle du langage naturel.

Autres conseils

Les suggestions de Dave sont un bon début. Sphinx est très chouette.

Je veux juste ajouter que vous devriez être aussi probabiliste que possible. En tant que linguiste et que je suis même un passionné de phonologie, je peux dire avec confiance que ne vous laissez pas prendre par les modèles linguistiques. N'oublions pas le souvent mal attribué "chaque fois que je licencie un linguiste, ma précision augmente". Il s’agit en réalité du modèle et de ses capacités à prendre en compte le bruit et les variations plutôt que tout ce que les grands spécialistes des arts libéraux du MIT ont à dire.

Un bon livre à prendre serait Jurafsky and Martin's "Speech and Language Processing". Il a quelques applications très utiles de modèles de calcul pour la tâche. Les travaux de Harvey Sussman sur les corrélats linéaires dans les pentes F2 pour une variété de voyelles (en commençant par les chevêches des clochers en passant par les humains) semblent que ce serait une bonne chose à implémenter dans un modèle de ces jours.

Julius est également une bonne option pour Linux

Sphinx est votre meilleur pari sur Linux. J'ai essayé Sphinx II et Sphinx III. Il existe des langages open source et des modèles acoustiques disponibles qui peuvent être utilisés avec chacun d’eux. Pas une performance de niveau de production, mais assez bon pour le prototypage ou la démonstration. Pour la production, vous devrez développer votre propre langage et vos propres modèles acoustiques.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow