Tous les algorithmes de synthèse vocale fonctionnent-ils en temps réel?

https://stackoverflow.com/questions/476299

speech-to-text

20-08-2019
|

Question

Tous les algorithmes voix-texte de la technologie actuelle fonctionnent-ils en temps réel? Je ne parle pas avec une personne assise devant un ordinateur avec un microphone, mais plutôt de saisir un fichier audio préenregistré.

i.e. Si vous avez un enregistrement vocal de 30 minutes, cela prendra-t-il toujours 30 minutes pour être transcrit?

Existe-t-il différentes approches?

La solution

Il n’ya aucune raison pour que la reconnaissance vocale prenne aussi longtemps que la longueur de l’audio à exécuter. Cependant, en raison des calculs requis, je ne pense pas que vous obtiendrez un algorithme extrêmement plus rapide que l'algorithme temps réel. Voir cette section de l'article Wikipedia pour plus d'informations (il ne semble pas que donnez n'importe quel temps, bien que cela donne un bon aperçu des performances).

Autres conseils

Rien n'empêche l'algorithme de fonctionner plus rapidement qu'en temps réel. Le logiciel Naturally Speaking 10 Professional fournit une "transcription à partir d'un fichier". option permettant de convertir une dictée prise depuis un ordinateur, elle fonctionne aussi rapidement que l’ordinateur sur lequel elle fonctionne peut atteindre.

Je pense que des systèmes de traitement par lots existent dans le domaine du renseignement électromagnétique, mais que de tels programmes seraient naturellement inaccessibles à la population.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow