Viabilidade de bater o teste de Turing com software moderno?

https://stackoverflow.com/questions/1648670

22-07-2019
|

Pergunta

Pergunto isso academicamente, eu quero perguntar em voz alta uma questão muito importante e ter a chance comunidade para atender. podemos construir um sistema que gera uma cena para jogar fora ao longo de um vídeo chat grupo anônimo ao vivo que pode ler o texto escrito para ela e responder com um chatbot?

O vídeo ao vivo na Internet é muitas vezes embaçada e tem baixa resolução. Não se pode fazer para fora muitos detalhes na cena do partido distante. As cenas podem ser processados ??com ferramentas de software modernos que parecem muito real quando não se mover. Tornando-os mover de forma realista é um grande pedaço de software de simulação.

Os rostos podem ser obtidos a 24 fotogramas por segundo por um aglomerado de 24 sistemas capazes de um quadro por segundo. O vídeo, então, tem um atraso de 1 segundo a partir do ponto em que foi tomada a decisão sobre qual a expressão facial para gerar. Estas expressões faciais e sua geração é um problema chave. A exigência realismo pele é um problema resolvido pela comunidade gráficos.

As expressões faciais foram classificados por vários pesquisadores. Eles também podem ser processados, este tem sido mostrado na literatura computação gráfica moderna. Nós podemos fazê-las se podemos saber quais são apropriados para uma determinada situação.

chatbots têm sido utilizados há décadas. Existem programas agora bastante 'inteligentes' conversa que irão ler o que é pedido e responder de uma forma sensata. Eles sempre fizeram isso com texto, mas o software de texto-leitor pode falar em uma voz humana-ish, e software de reconhecimento de voz está ficando melhor a cada ano.

O que eu proponho é o fato de que ele deve ser bastante rudimentar para conectar todas essas peças díspares de desenvolvimento de software e criar algum batedor de Turing-teste verdadeiramente surpreendente.

Este programa poderia introduzir um espaço virtual e exibir um ambiente realista, como se em uma webcam como os outros participantes. Ele pode assistir a suas expressões faciais e pode ouvir a sua voz e ele pode ler o seu texto. Ele poderia, então, criar uma resposta e qualquer tipo ou dizê-lo de volta para o grupo. A escolha do que para responder com é um problema difícil que nem mesmo a maioria dos humanos têm dominado. Podemos obtê-lo perto com um monte de trabalho.

O Teste de Turing é sobre provando que um comunicador é um ser humano, mas 'prova' apenas no sentido de que é bom o suficiente para enganar os juízes humanos. Se os juízes humanos são simplesmente todos, eles provavelmente não vai aplicar um procedimento formal rigorosa. Adivinhar ou caindo para um truque é bom o suficiente.

Você acha que pode fazer isso?

É este plano falho? Existem implicações morais para enganar o telespectador médio desta forma? nós podemos fazer milhões de dólares através da geração de assistentes pessoais inteligentes?

Solução

Já é pesquisar em curso nesta área. avatares digitais têm sido usados ??com algum sucesso. Alguns dos pontos-chave:

PCs modernos podem tornar um rosto humano convincente em tempo real, não há problema. Basta colocar em um cartão gfx médio e um bom modelo e está feito. (Veja Amanhecer , por exemplo).
software de geração de voz atual pode produzir texto fluente e é capaz de pronunciá-lo corretamente. Ainda é um pouco monótono desde o orador não tem emoções. (Veja este artigo ).
Há pesquisas para fazer máquinas "sensação". Digo "sensação" porque é basicamente apenas um pequeno programa com um par de variáveis ??( "raiva", "medo", "fome", "entediado", "tristeza", ...) e um conjunto complexo de regras que influenciam essas variáveis. (Veja o href="http://en.wikipedia.org/wiki/Artificial_intelligence#Social_intelligence" rel="nofollow noreferrer"> artigo ).

O principal problema agora é que não sabemos o que as emoções são. São apenas quantidades de moléculas que flutuam em certas partes do cérebro? Se sim, quais moléculas e em que parte do cérebro? Neurocientistas tentativa hoje para prever o estado da mente, olhando para imagens MRT. Para entender o que isso significa, aqui é uma analogia:. Eles tentam adivinhar o que a humanidade está à altura de olhar para a distribuição da luz na Terra a partir da Lua com seus olhos nus

Por isso, não entendo o que as emoções são. O próximo obstáculo é que as emoções nada sem contexto significa. É fácil escrever um programa que se sente "triste" por apenas definir o valor da variável sadness a 1,0. Mas que se sentiria estranho se não havia nenhuma razão. Assim, o programa deve ser capaz de acompanhar a conversa, construir uma imagem mental dela (o que são as pessoas falando sobre e como é que eles se sentem agora) e depois ajustar o seu próprio estado mental seguindo as regras atuais do respectivo grupo.

Você sabe como se sente quando você entra em um novo grupo pela primeira vez e tentar obter um controle sobre o que está acontecendo e como você deve se comportar. Essa é uma tarefa difícil para os seres humanos e mais ainda para um programa.

Há um artigo "Können wir eine Seele simulieren?" (somente Geman mas o saída do Google traduzir é muito bom.)

Outras dicas

Não podemos passar o texto tradicional baseada teste de Turing. Adicionando vídeo no topo é irrelevante.

Não concordo com a presença de sua pergunta aqui, mas eu sinto que é necessário salientar que você tem severamente mal compreendido o que o ponto do teste de Turing é. Não tem nada a ver com a aparência de um ser humano, ou soar como um.

Na verdade, testes mais propostas envolvem um tempo de atraso teletipo terminal, para que haja tão pouco transferência de informação possível para além da comunicação real que está em teste.

Eu odeio a quebrar sua bolha, mas a atual geração de chatbots, e até mesmo a maioria dos AIs avançados do laboratório estão longe de bater o teste de Turing. Torna-se óbvio muito rapidamente que não há uma pessoa real lá.

O grande problema é não tornar a aparência (visual ou vocal), é para tornar inteligência e emoções.

O que você sugere é o front-end de uma realtime Shrek. Mas o que sobre o back-end?

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow