Pourquoi ne pas la reconnaissance de la parole avance? [fermé]

https://stackoverflow.com/questions/1102910

12-09-2019
|

Question

Ce qui est si difficile sur le sujet que les concepteurs de l'algorithme sont de la difficulté à l'aborder?

Est-ce vraiment complexe?

Je vais avoir du mal à saisir pourquoi ce sujet est si problématique. Quelqu'un peut-il me donner un exemple pour expliquer pourquoi cela est le cas?

La solution

Parce que si les gens ont du mal à comprendre les autres avec un fort accent pourquoi pensez-vous des ordinateurs seront mieux à elle?

Autres conseils

traitement de Auditory est une tâche très complexe. L'évolution humaine a produit un système si bien que nous ne nous rendons pas compte à quel point il est. Si trois personnes parlent de vous en même temps, vous serez en mesure de se concentrer sur un signal et jeter les autres, même si elles sont plus fort. Le bruit est très bien mis au rebut aussi. En fait, si vous entendez la voix humaine jouée à l'envers, les premières étapes du système auditif vont envoyer ce signal à une zone de traitement différent que s'il est signal de parole réel, parce que le système considérera comme « non-voix ». Ceci est un exemple des capacités exceptionnelles, les humains ont.

La reconnaissance vocale avancé rapidement des années 70 parce que les chercheurs ont étudié la production de la voix. Ce système est plus simple: les cordes vocales excités ou non, de résonnance vocale ... ce tractus est un système mécanique facile à comprendre. Le produit principal de cette approche est le . Cela a conduit la reconnaissance automatique de la parole (ASR) pour obtenir des résultats acceptables. Mais ceci est une approche sous-optimale. la séparation du bruit est tout à fait mauvaise, même si cela fonctionne plus ou moins dans un environnement propre, il ne va pas travailler avec la musique forte en arrière-plan, pas les humains.

L'approche optimale dépend de la compréhension du système auditif. Ses premières étapes de la cochlée, colliculus inférieur ... mais aussi le cerveau est impliqué. Et nous ne savons pas tant à ce sujet. Il est difficile d'être un changement de paradigme.

professeur Hynek Hermansky par rapport à un papier l'état actuel de la la recherche avec quand les humains voulaient voler. Nous ne savions pas quel était le secret des plumes -Les? battement d'ailes -. jusqu'à ce que nous avons découvert la force de Bernoulli

Je me souviens avoir lu que Microsoft avait une équipe de travail sur la reconnaissance vocale, et ils se disaient l'équipe « Wreck a Nice Beach » (un nom qui leur est donné par leur propre logiciel).

Pour activer effectivement la parole en mots, ce n'est pas aussi simple que les sons discrets de cartographie, il doit y avoir une compréhension du contexte. Le logiciel aurait besoin d'avoir une durée de vie de l'expérience humaine codée en elle.

Ce genre de problème est plus général que seule la reconnaissance vocale. Il existe aussi dans le traitement de la vue, le traitement du langage naturel, l'intelligence artificielle, ...

La reconnaissance vocale est affectée par le problème:

Le fossé sémantique caractérise la différence entre deux descriptions de un objet par différents linguistique représentations, par exemple langues ou des symboles. Dans l'ordinateur la science, le concept est pertinent chaque fois que les activités humaines ordinaires, les observations et les tâches sont transféré dans un calcul représentation

Entre une forme d'onde audio et un mot textuel, l'écart est grand,

Entre le mot et sa signification, il est encore plus grand ...

beecos iyfe peepl mal à arnerstand uvver peepl WIF e Strang acsent wie doo yoo fink compootrs abeille wyll ani bettre AYT il?

pari I que vous avez pris une demi-seconde pour travailler ce que l'enfer je tapais et tout IW faisant répétais Simons réponse dans un autre « accent ». La puissance de traitement est tout simplement pas encore là mais il y arrive.

La variété en langue serait le facteur prédominant, ce qui rend difficile. Dialectes et accents se rendre plus compliquée. En outre, le contexte. Le livre a été lu. Le livre était rouge. Comment déterminez-vous la différence. L'effort supplémentaire nécessaire pour cela rendrait plus facile de taper juste la chose en premier lieu.

Maintenant, il y aurait probablement plus d'efforts consacrés à ce s'il était plus nécessaire, mais les progrès dans d'autres formes d'entrée de données ont venir si vite qu'il ne soit pas considéré que nécessaire.

Bien sûr, il y a des zones où il serait grand, même très utile ou utile. Les situations dans lesquelles vous avez les mains pleines ou ne peut pas regarder un écran pour la saisie. Aider les handicapés, etc. Mais la plupart d'entre eux sont des marchés de niche qui ont leurs propres solutions. Peut-être que certains d'entre eux travaillent plus dans ce sens, mais la plupart des environnements où les ordinateurs sont utilisés ne sont pas de bons candidats pour la reconnaissance vocale. Je préfère mon environnement de travail pour être tranquille. Et bavardages sans fin aux ordinateurs serait crosstalk un problème réaliste.

En plus de cela, à moins que vous dictez la prose à l'ordinateur, tout autre type d'entrée est plus facile et plus rapide à l'aide du clavier, la souris ou le toucher. J'ai fait une fois essayer de codage en utilisant une entrée vocale. Tout cela a été pénible du début à la fin.

Parce que Lernout & Hauspie a fait faillite :)

(désolé, en tant que Belge, je ne pouvais pas résister)

Le problème fondamental est que le langage humain est ambigu. Par conséquent, afin de comprendre la parole, l'ordinateur (ou humain) doit comprendre le contexte de ce qui est parlé. Ce contexte est en fait le monde physique, le locuteur et l'auditeur habitent. Et aucun programme AI n'a encore démontré avoir la compréhension de Adeep du monde physique.

La synthèse vocale est très complexe par lui-même - de nombreux paramètres sont combinés pour former le discours résultant. Casser dehors est difficile, même pour les gens - parfois vous mal entendre un mot pour un autre

La plupart du temps, nous comprenons en fonction du contexte humain. Pour qu'une phrase perticular est en harmonie avec la conversation, malheureusement, l'ordinateur a un gros handicap dans ce sens. Il est essaie juste de capturer le mot non ce qui est entre elle.

nous comprendrions un étranger dont l'accent anglais est très pauvre peut être deviner ce qu'il essaie de dire au lieu de ce qu'il dit réellement.

Reconnaître la parole bien, vous devez savoir ce que les gens veulent dire - et les ordinateurs ne sont pas encore là du tout

Vous avez dit vous-même, les concepteurs d'algorithmes travaillent là-dessus ... mais le langage et la parole ne sont pas une constructions algorithmiques. Ils sont le pic du développement du système humain très complexe impliquant des concepts, des méta-concepts, la syntaxe, la grammaire, des exceptions, des émotions, des tonalités, des neurones ainsi que l'activité hormon, etc., etc.

langue a besoin d'une approche très heuristique et qui est la raison pour laquelle les progrès sont lents et les perspectives peut-être pas trop optimiste.

Une fois, j'ai posé une question similaire à mon instructeur; je lui ai demandé quelque chose comme ce défi est là pour faire un convertisseur speech-to-text. Parmi les réponses qu'il a données, il m'a demandé de prononcer « p » et « b ». Puis il a dit qu'ils diffèrent pour un temps très faible au début, puis ils sonnent similaires. Mon point est qu'il est encore difficile de reconnaître ce que le son est fait, en reconnaissant la voix serait encore plus difficile. En outre, notez qu'une fois que vous enregistrez les voix des gens, il est juste chiffres que vous stockez. Imaginez que vous essayez de trouver des mesures comme l'accent, la fréquence et d'autres paramètres utiles pour identifier la voix à partir de rien, mais d'entrée telles que les matrices de nombres. Les ordinateurs sont bien au traitement numérique etc, mais la voix est pas vraiment « chiffres ». Vous avez besoin d'encoder la voix en nombre, puis faire tous les calculs sur eux.

Je me attends quelques avances de Google à l'avenir en raison de leur collecte de données vocales par 1-800-Goog411

Ce n'est pas mon domaine, mais je crois qu'il avance, juste lentement.

Et je crois que la réponse de Simon est un peu correct d'une manière: une partie du problème est que deux personnes parlent aussi bien en termes de modèles qu'un ordinateur est programmé pour reconnaître. Ainsi, il est difficile à la parole d'analyse.

Les ordinateurs ne sont même pas très bon au traitement du langage naturel pour commencer. Ils sont grands à matching mais quand il vient à inférant, il devient poilu.

Ensuite, en essayant de trouver le même mot de centaines de différents accents / flexions et il ne semble pas tout à coup si simple.

Eh bien, j'ai Google Voice Search sur mon G1 et il fonctionne étonnamment bien. La réponse est, le champ progresse, mais vous avez tout simplement pas remarqué!

Si la reconnaissance vocale a été possible avec MIPS beaucoup moins que le cerveau humain, nous pourrions vraiment parler aux animaux.

Evolution ne dépenserait pas toutes ces calories sur la matière grise si elles ne sont pas tenus de faire le travail.

Langue parlée est sensible au contexte, ambigu. Les ordinateurs ne traitent pas bien avec des commandes ambiguës.

Je ne suis pas d'accord avec l'hypothèse de la question - j'ai récemment été présenté à la reconnaissance vocale de Microsoft et je suis impressionné. Il peut apprendre ma voix après quelques minutes et identifie habituellement mots correctement. Il permet également de nouveaux mots à ajouter. Il est certainement utile pour mes besoins (chimie compréhension).

Différencier entre la reconnaissance des jetons (mot) et comprendre la signification d'entre eux.

Je ne sais pas encore sur d'autres langues ou systèmes d'exploitation.

Le problème est qu'il ya deux types de moteurs de reconnaissance vocale. ceux de haut-parleurs formés tels que dragon sont bons pour la dictée. Ils peuvent reconnaître presque tous parlé du texte avec assez bonne précision, mais exigent (a) la formation par l'utilisateur, et (b) un bon microphone.

moteurs la parole indépendante du locuteur rec sont le plus souvent utilisés dans la téléphonie. Ils ne nécessitent pas de « formation » par l'utilisateur, mais ils doivent savoir à l'avance exactement ce que les mots sont attendus. L'effort de développement d'applications pour créer ces grammaires (et traiter les erreurs) est énorme. Téléphonie est limitée à une bande passante de 4 kHz en raison des limites historiques de notre réseau téléphonique public. Cette qualité audio limitée entrave considérablement la capacité des moteurs de rec de la parole à « entendre » ce que les gens disent. Digits tels que « six » ou « sept » contiennent un son ssss qui est particulièrement difficile pour les moteurs à distinguer. Cela signifie que la reconnaissance des chaînes de chiffres, l'une des tâches les plus de reconnaissance de base, est problématique. Ajouter des accents régionaux, où « neuf » est prononcé « nan » dans certains endroits, et la précision souffre vraiment.

Le meilleur espoir sont des interfaces graphiques qui combinent et rec de la parole. Pensez à une application iPhone que vous pouvez contrôler avec votre voix.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow