Possibilità di superare il test di Turing con software moderni?

https://stackoverflow.com/questions/1648670

22-07-2019
|

Domanda

Lo chiedo accademicamente, voglio fare ad alta voce una domanda molto importante e fare in modo che la comunità cerchi di rispondere. Possiamo costruire un sistema che genera una scena da riprodurre lungo una chat video di gruppo anonima dal vivo in grado di leggere il testo digitato e rispondere con un chatbot?

I video di Internet in diretta sono spesso sfocati e hanno una bassa risoluzione. Non si possono distinguere molti dettagli nella scena della festa lontana. Le scene possono essere renderizzate con strumenti software moderni che sembrano molto reali quando non si muovono. Farli muovere realisticamente è un grosso pezzo di software di simulazione.

I volti possono essere riprodotti a 24 frame al secondo da un cluster di 24 sistemi in grado di 1 frame al secondo. Il video avrebbe quindi un ritardo di 1 secondo dal punto in cui è stata presa la decisione su quale espressione facciale generare. Queste espressioni facciali e la loro generazione è un problema chiave. Il requisito del realismo della pelle è un problema risolto dalla comunità grafica.

Le espressioni facciali sono state classificate da diversi ricercatori. Possono anche essere renderizzati, questo è stato dimostrato nella moderna letteratura di computer grafica. Possiamo farli se possiamo sapere quali sono appropriati per una determinata situazione.

I chatbot sono in uso da decenni. Esistono ora programmi di chat piuttosto "intelligenti" che leggeranno ciò che viene chiesto e risponderanno in modo sensato. Lo hanno sempre fatto con il testo, ma il software del lettore di testi può parlare con una voce umana e il software di riconoscimento vocale migliora ogni anno.

Quello che propongo è il fatto che dovrebbe essere abbastanza rudimentale collegare tutte queste parti disparate dello sviluppo del software e creare un battitore di prova davvero incredibile.

Questo programma potrebbe entrare in uno spazio virtuale e visualizzare un ambiente realistico come su una webcam come gli altri partecipanti. Può guardare le loro espressioni facciali e può ascoltare il loro discorso e può leggere il loro testo. Potrebbe quindi creare una risposta e digitare o dirlo al gruppo. La scelta di cosa rispondere è un problema difficile che nemmeno la maggior parte degli umani ha imparato. Possiamo avvicinarci con molto lavoro.

Il test di Turing consiste nel dimostrare che un comunicatore è un essere umano, ma "prova" solo nel senso che è abbastanza buono da ingannare i giudici umani. Se i giudici umani sono semplicemente tutti, probabilmente non applicheranno una procedura formale rigorosa. Indovinare o cadere per un trucco è abbastanza buono.

Pensi che possiamo farlo?

Questo piano è difettoso? Ci sono implicazioni morali nel ingannare lo spettatore medio in questo modo? Possiamo guadagnare milioni di dollari generando assistenti intelligenti personali?

Soluzione

Esistono già ricerche in questo settore. Gli avatar digitali sono stati utilizzati con un certo successo. Alcuni dei punti chiave:

I PC moderni possono rendere un volto umano convincente in tempo reale, nessun problema. Basta inserire una scheda gfx media e un buon modello e il gioco è fatto. (vedi Dawn , per esempio).
L'attuale software di generazione vocale può produrre testi fluenti ed è in grado di pronunciarlo correttamente. È ancora un po 'monotono poiché l'oratore non ha emozioni. (Vedi questo articolo ).
Esistono ricerche per rendere le macchine "sentite". Dico "senti" perché è fondamentalmente solo un piccolo programma con un paio di variabili ("rabbia", "paura", "fame", "annoiata", "tristezza", ...) e un complesso insieme di regole che influenzano queste variabili. (Vedi l'articolo Wikipedia per i dettagli ).

Il problema principale in questo momento è che non sappiamo quali siano le emozioni. Sono solo quantità di molecole che galleggiano in alcune parti del cervello? In tal caso, quali molecole e in quale parte del cervello? I neuroscienziati oggi cercano di prevedere lo stato d'animo guardando le immagini MRT. Per capire cosa significhi, ecco un'analogia: provano a indovinare che cosa sta facendo l'umanità guardando la distribuzione della luce sulla Terra dalla Luna ad occhi nudi.

Quindi non capiamo quali siano le emozioni. Il prossimo ostacolo è che le emozioni non significano nulla senza contesto. È facile scrivere un programma che sembra "triste" semplicemente impostando il valore della variabile sadness su 1.0. Ma sarebbe strano se non ci fosse motivo. Quindi il programma deve essere in grado di seguire la conversazione, costruirne un'immagine mentale (di cosa parlano le persone e come si sentono in questo momento) e quindi regolare il proprio stato mentale seguendo le regole attuali del rispettivo gruppo.

Sai come ci si sente quando ti unisci a un nuovo gruppo per la prima volta e cerchi di capire cosa sta succedendo e come dovresti comportarti. È un compito difficile per gli umani e ancora di più per un programma.

C'è un articolo " K & # 246; nnen wir eine Seele simulieren? " (solo Geman ma il output di Google translate è abbastanza buono.)

Altri suggerimenti

Non possiamo superare il tradizionale test di Turing basato su testo. L'aggiunta di video in alto è irrilevante.

Non sono d'accordo con la presenza della tua domanda qui, ma ritengo necessario sottolineare che hai gravemente frainteso il punto del test di Turing. Non ha nulla a che fare con l'aspetto di un essere umano o con il suono di uno.

In effetti, la maggior parte dei test proposti prevede un terminale teletipo ritardato, quindi c'è meno trasferimento di informazioni possibile oltre la comunicazione effettiva che è sotto test.

Odio rompere la tua bolla, ma l'attuale generazione di chatbot e persino le IA più avanzate in laboratorio non sono affatto lontane dal battere il test di turing. Diventa ovvio molto rapidamente che non c'è una persona reale lì.

Il grande problema non è rendere l'aspetto (visivo o vocale), è rendere intelligenza ed emozioni.

Quello che suggerisci è il front-end di uno Shrek in tempo reale. Ma per quanto riguarda il back-end?

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow