¿Viabilidad de superar la prueba de Turing con un software moderno?

https://stackoverflow.com/questions/1648670

22-07-2019
|

Pregunta

Hago esto académicamente, quiero hacer una pregunta muy importante en voz alta y que la comunidad trate de responderla. ¿Podemos construir un sistema que genere una escena para reproducirse en una sala de chat grupal anónima en vivo que pueda leer el texto escrito y responder con un chatbot?

El video de Internet en vivo a menudo es borroso y tiene baja resolución. No se pueden distinguir muchos detalles en la escena de la fiesta lejana. Las escenas se pueden representar con herramientas de software modernas que parecen muy reales cuando no se mueven. Hacer que se muevan de manera realista es una gran pieza de software de simulación.

Las caras se pueden representar a 24 cuadros por segundo por un grupo de 24 sistemas capaces de 1 cuadro por segundo. El video tendría un retraso de 1 segundo desde el punto donde se tomó la decisión de qué expresión facial generar. Estas expresiones faciales y su generación es un problema clave. El requisito de realismo de la máscara es un problema resuelto por la comunidad gráfica.

Las expresiones faciales han sido clasificadas por varios investigadores. También se pueden renderizar, esto se ha demostrado en la literatura moderna de gráficos por computadora. Podemos hacerlos si podemos saber cuáles son apropiados para una situación dada.

Los chatbots han estado en uso durante décadas. Existen ahora programas de chat bastante 'inteligentes' que leerán lo que se les pregunta y responderán de manera sensata. Siempre lo han hecho con texto, pero el software de lectura de texto puede hablar con voz humana, y el software de reconocimiento de voz mejora cada año.

Lo que propongo es el hecho de que debería ser bastante rudimentario conectar todas estas partes dispares del desarrollo de software y crear un batidor de prueba de turing realmente sorprendente.

Este programa podría ingresar a un espacio virtual y mostrar un entorno realista como en una cámara web como los otros participantes. Puede ver sus expresiones faciales y puede escuchar su discurso y puede leer su texto. Luego podría crear una respuesta y escribir o decirlo al grupo. La elección de con qué responder es un problema difícil que ni siquiera la mayoría de los humanos ha dominado. Podemos acercarnos con mucho trabajo.

La prueba de Turing se trata de demostrar que un comunicador es un humano, pero 'prueba' solo en el sentido de que es lo suficientemente bueno como para engañar a los jueces humanos. Si los jueces humanos son simplemente todos, probablemente no aplicarán un procedimiento formal estricto. Adivinar o enamorarse de un truco es lo suficientemente bueno.

¿Crees que podemos hacer esto?

¿Es defectuoso este plan? ¿Hay implicaciones morales para engañar al espectador promedio de esta manera? ¿Podemos ganar millones de dólares generando asistentes personales inteligentes?

Solución

Ya hay investigaciones en curso en esta área. Los avatares digitales se han utilizado con cierto éxito. Algunos de los puntos clave:

Las PC modernas pueden representar un rostro humano convincente en tiempo real, no hay problema. Simplemente coloque una tarjeta gfx mediana y un buen modelo y listo. (ver Dawn , por ejemplo).
El software de generación de voz actual puede producir texto fluido y puede pronunciarlo correctamente. Todavía es un poco monótono ya que el hablante no tiene emociones. (Consulte este artículo ).
Hay investigaciones para hacer que las máquinas "sientan". Yo digo "sentir" porque es básicamente un pequeño programa con un par de variables (`` ira '', `` miedo '', `` hambre '', `` aburrido '', `` tristeza '', ...) y un complejo conjunto de reglas que influyen Estas variables. (Consulte el artículo de Wikipedia para obtener detalles ).

El principal problema en este momento es que no sabemos qué son las emociones. ¿Son solo cantidades de moléculas que flotan en ciertas partes del cerebro? Si es así, ¿qué moléculas y en qué parte del cerebro? Los neurocientíficos de hoy intentan predecir el estado de la mente mirando imágenes de MRT. Para entender lo que esto significa, aquí hay una analogía: intentan adivinar qué está haciendo la humanidad al observar la distribución de la luz en la Tierra desde la Luna con sus ojos desnudos.

Entonces no entendemos qué son las emociones. El siguiente obstáculo es que las emociones no significan nada sin contexto. Es fácil escribir un programa que se sienta "triste" simplemente configurando el valor de la variable sadness en 1.0. Pero eso se sentiría extraño si no hubiera razón. Por lo tanto, el programa debe ser capaz de seguir la conversación, construir una imagen mental de la misma (de qué están hablando las personas y cómo se sienten en este momento) y luego ajustar su propio estado mental siguiendo las reglas actuales del grupo respectivo.

Sabes cómo se siente cuando te unes a un nuevo grupo por primera vez e intentas controlar lo que está sucediendo y cómo debes comportarte. Esa es una tarea difícil para los humanos y aún más para un programa.

Hay un artículo " K & # 246; nnen wir eine Seele simulieren? " (solo Geman pero salida del traductor de Google es bastante bueno.)

Otros consejos

No podemos pasar la prueba de Turing tradicional basada en texto. Agregar video en la parte superior es irrelevante.

No estoy de acuerdo con la presencia de su pregunta aquí, pero creo que es necesario señalar que ha entendido mal cuál es el objetivo de la prueba de Turing. No tiene nada que ver con verse como un humano o sonar como tal.

De hecho, la mayoría de las pruebas propuestas implican un terminal de teletipo con retraso de tiempo, por lo que hay la menor transferencia de información posible más allá de la comunicación real que se está probando.

Odio romper tu burbuja, pero la generación actual de chatbots, e incluso las IAs más avanzadas en el laboratorio no están cerca de superar la prueba de Turing. Se hace evidente muy rápidamente que no hay una persona real allí.

El gran problema no es representar la apariencia (visual o vocal), es generar inteligencia y emociones.

Lo que sugieres es el front-end de un Shrek en tiempo real. Pero, ¿qué pasa con el back-end?

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow