Utilisez NSSpeechRecognizer ou une alternative avec un fichier audio au lieu d’une entrée microphone?

https://stackoverflow.com/questions/1636894

06-07-2019
|

Question

Est-il possible d'utiliser NSSpeechRecognizer avec un fichier audio préenregistré au lieu d'une entrée de microphone directe?

Ou existe-t-il un autre cadre de synthèse de la parole pour Objective-C / Cocoa?

Ajouté :

Plutôt que d’utiliser la voix sur la machine qui exécute l’application, des périphériques externes (par exemple, un iPhone) pourraient être utilisés pour n’envoyer qu’un flux audio enregistré à cette application de bureau. L'application Cocoa de bureau traitait et faisait ensuite tout ce qu'elle était censée faire à l'aide des commandes attribuées.

Merci.

La solution

Je ne vois aucun moyen évident de commuter l'entrée par programmation, bien que l'option "Speech" premier paragraphe du guide d’accompagnement dans la section "Reconnaissance du discours". Cette section semble impliquer que d’autres entrées peuvent être utilisées. Je pense que cela doit être réglé via les Préférences Système, cependant. J'imagine qu'il utilise le périphérique d'entrée audio principal sélectionné ici.

Je suppose cependant que vous recherchez une reconnaissance vocale ouverte, ce que NSSpeechRecognizer ne fait pas. Si vous souhaitez transformer un fichier audio préenregistré en texte (c.-à-d. En faire une transcription d'un enregistrement), NSSpeechRecognizer n'a aucune chance, car vous devez lui donner un tableau de "commandes". à écouter.

Théoriquement, vous pourriez alimenter tout le dictionnaire, mais je ne pense pas que cela fonctionnerait, car vous devez généralement lui donner des commandes claires et distinctes. J'imagine que ses performances en souffriraient si vous lui donniez un tas de choses à analyser (en temps réel).

Votre meilleur choix est de rechercher des solutions tierces open source. Il existe quelques paquets généralisés (aucun spécifiquement pour Cocoa / Objective-C), mais cela pose une autre question: quel type de reconnaissance recherchez-vous? Les deux formes principales de reconnaissance de la parole («qualifié» est plus précis mais moins flexible pour des voix différentes et l’environnement d’enregistrement, alors que «ouvert» est généralement beaucoup moins précis).

Ce serait probablement mieux si vous indiquiez exactement ce que vous essayez d'accomplir.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow