Question

Je pose cette question de manière académique, je veux poser à voix haute une question très importante et laisser la communauté essayer d'y répondre. Pouvons-nous construire un système qui génère une scène qui se déroulera dans une salle de discussion vidéo de groupe anonyme en direct, capable de lire le texte saisi et de répondre avec un chatbot?

La vidéo en direct sur Internet est souvent floue et présente une résolution faible. On ne peut pas distinguer beaucoup de détails dans la scène de la fête lointaine. Les scènes peuvent être rendues avec des outils logiciels modernes qui ont l’air très réel quand ils ne bougent pas. Les faire bouger de manière réaliste est un gros logiciel de simulation.

Les visages peuvent être restitués à 24 images par seconde par un groupe de 24 systèmes capables de traiter 1 image par seconde. La vidéo aurait alors un décalage de 1 seconde à partir du moment où la décision a été prise quant à quelle expression faciale générer. Ces expressions faciales et leur génération constituent un problème clé. L'exigence de réalisme de la peau est un problème résolu par la communauté graphique.

Les expressions faciales ont été classées par plusieurs chercheurs. Ils peuvent également être rendus, cela a été montré dans la littérature d'infographie moderne. Nous pouvons les faire si nous pouvons savoir lesquels sont appropriés pour une situation donnée.

Les chatbots sont utilisés depuis des décennies. Il existe maintenant des programmes de discussion assez «intelligents» qui lisent ce qui est demandé et répondent de manière judicieuse. Ils ont toujours fait cela avec du texte, mais un logiciel de lecture de texte peut parler d'une voix humaine, et le logiciel de reconnaissance vocale s'améliore chaque année.

Ce que je propose, c’est le fait qu’il devrait être assez rudimentaire de connecter tous ces éléments disparates du développement logiciel et de créer un batteur de test de turing vraiment incroyable.

Ce programme peut entrer dans un espace virtuel et afficher un environnement réaliste comme sur une webcam, à l’instar des autres participants. Il peut regarder leurs expressions faciales et il peut écouter leur discours et il peut lire leur texte. Il pourrait ensuite créer une réponse et taper ou dire au groupe. Le choix de la réponse est un problème difficile que même la plupart des humains ne maîtrisent pas. Nous pouvons nous en approcher avec beaucoup de travail.

Le test de Turing a pour objet de prouver qu'un communicateur est un humain, mais ne constitue qu'une "preuve" dans le sens où il est assez bon de duper les juges humains. Si les juges humains sont simplement tout le monde, ils n'appliqueront probablement pas une procédure formelle stricte. Deviner ou tomber pour un tour est assez bon.

Pensez-vous que nous pouvons faire cela?

Ce plan est-il défectueux? Y at-il des implications morales à tromper le spectateur moyen de cette manière? Pouvons-nous gagner des millions de dollars en créant des assistants personnels intelligents?

Était-ce utile?

La solution

Des recherches sont déjà en cours dans ce domaine. Les avatars numériques ont été utilisés avec un certain succès. Quelques points clés:

  • Les PC modernes peuvent rendre un visage humain convaincant en temps réel, sans problème. Il suffit de mettre une carte gfx moyenne et un bon modèle et vous avez terminé. (voir Dawn , par exemple).

  • Le logiciel de génération de voix actuel peut produire un texte fluide et est capable de le prononcer correctement. C'est toujours un peu monotone puisque l'orateur n'a pas d'émotions. (Voir cet article .)

  • Des recherches sont en cours pour que les machines "se sentent". Je dis "ressentez" parce qu’il s’agit en fait d’un petit programme comportant quelques variables ("colère", "peur", "faim", "ennuyé", "tristesse", ...) et d’un ensemble complexe de règles qui influencent ces variables. (Consultez l'article pour plus d'informations ).

Le principal problème en ce moment est que nous ne savons pas ce que sont les émotions. S'agit-il uniquement de quantités de molécules flottant dans certaines parties du cerveau? Si oui, quelles molécules et dans quelle partie du cerveau? Les neuroscientifiques essaient aujourd'hui de prédire l'état de l'esprit en regardant des images de MRT. Pour comprendre ce que cela signifie, voici une analogie: ils essaient de deviner ce que fait l’humanité en regardant la distribution de la lumière sur la Terre depuis la Lune de leurs yeux nus.

Donc, nous ne comprenons pas ce que sont les émotions. Le prochain obstacle est que les émotions ne veulent rien dire sans contexte. Il est facile d’écrire un programme qui se sent "triste". en définissant simplement la valeur de la variable sadness sur 1.0. Mais cela serait bizarre s'il n'y avait pas de raison. Le programme doit donc pouvoir suivre la conversation, en construire une image mentale (quelles sont les personnes qui parlent de et comment se sentent-ils maintenant), puis ajuster leur propre état mental en fonction des règles en vigueur du groupe respectif.

Vous savez ce que vous ressentez lorsque vous rejoignez un nouveau groupe pour la première fois et que vous essayez de maîtriser ce qui se passe et comment vous devriez vous comporter. C’est une tâche difficile pour les humains et encore plus pour un programme.

Il existe un article "Können wir eine Seele simulieren?" (Geman uniquement mais le résultat de recherche Google <> / a> est très bon.)

Autres conseils

Nous ne pouvons pas réussir le test de Turing basé sur du texte traditionnel. Ajouter de la vidéo par le haut n’a aucune importance.

Je ne suis pas d’accord avec la présence de votre question ici, mais j’estime nécessaire de souligner que vous avez gravement mal compris l’intérêt du test de Turing. Cela n'a rien à voir avec ressembler à un humain, ou sonner comme tel.

En fait, la plupart des tests proposés impliquent un terminal de télétype différé. Par conséquent, le transfert d'informations est aussi réduit que possible au-delà de la communication réellement testée.

Je n'aime pas briser votre bulle, mais la génération actuelle de chatbots, et même les agents d'intelligence artificielle les plus avancés du laboratoire, sont loin de battre le test. Il devient très vite évident qu’il n’ya pas une vraie personne.

Le gros problème n’est pas de rendre l’apparence (visuelle ou vocale), mais bien de rendre l’intelligence et les émotions.

Ce que vous suggérez, c’est le début d’une Shrek en temps réel. Mais qu'en est-il du back-end?

scroll top