Frage

Ich stelle dies akademisch, ich möchte eine sehr wichtige Frage laut stellen und die Community versuchen lassen, sie zu beantworten.Können wir ein System aufbauen, das eine Szene generiert, die in einem anonymen Live-Video-Gruppen-Chatroom abgespielt wird, der den darin eingegebenen Text lesen und mit einem Chatbot antworten kann?

Live-Internetvideos sind oft verschwommen und haben eine niedrige Auflösung.Viele Details sind in der Szene der fernen Party nicht zu erkennen.Mit modernen Softwaretools können Szenen gerendert werden, die im Stand sehr real aussehen.Sie realistisch zu bewegen, ist ein großes Stück Simulationssoftware.

Gesichter können mit 24 Bildern pro Sekunde von einem Cluster aus 24 Systemen gerendert werden, die 1 Bild pro Sekunde leisten können.Das Video hätte dann eine Verzögerung von 1 Sekunde ab dem Punkt, an dem die Entscheidung getroffen wurde, welcher Gesichtsausdruck erzeugt werden soll.Diese Mimik und ihre Erzeugung ist ein zentrales Problem.Die Anforderung an den Hautrealismus ist ein gelöstes Problem der Grafik-Community.

Gesichtsausdrücke wurden von mehreren Forschern kategorisiert.Sie können auch gerendert werden, dies wurde in der Literatur zur modernen Computergrafik gezeigt.Wir können sie umsetzen, wenn wir wissen, welche für eine bestimmte Situation geeignet sind.

Chatbots sind seit Jahrzehnten im Einsatz.Mittlerweile gibt es recht „intelligente“ Chat-Programme, die vorlesen, was gefragt wird, und sinnvoll antworten.Das haben sie schon immer mit Text gemacht, aber Textlesesoftware kann mit menschlicher Stimme sprechen, und Spracherkennungssoftware wird von Jahr zu Jahr besser.

Was ich vorschlage, ist die Tatsache, dass es ziemlich rudimentär sein sollte, all diese unterschiedlichen Teile der Softwareentwicklung zu verbinden und einen wirklich erstaunlichen Turing-Test-Schläger zu schaffen.

Dieses Programm könnte einen virtuellen Raum betreten und wie die anderen Teilnehmer eine realistische Umgebung wie auf einer Webcam anzeigen.Es kann ihre Mimik beobachten, ihre Sprache hören und ihren Text lesen.Es könnte dann eine Antwort erstellen und diese entweder eingeben oder an die Gruppe zurücksenden.Die Entscheidung, womit man antworten möchte, ist ein schwieriges Problem, das nicht einmal die meisten Menschen beherrschen.Mit viel Arbeit können wir es schaffen.

Beim Turing-Test geht es darum, zu beweisen, dass ein Kommunikator ein Mensch ist, aber nur in dem Sinne, dass er gut genug ist, um die menschlichen Richter zu täuschen.Wenn es sich bei den menschlichen Richtern einfach um alle handelt, werden sie wahrscheinlich kein strenges formelles Verfahren anwenden.Raten oder auf einen Trick hereinfallen ist gut genug.

Glauben Sie, dass wir das schaffen können?

Ist dieser Plan fehlerhaft?Hat es moralische Implikationen, den Durchschnittszuschauer auf diese Weise auszutricksen?Können wir Millionen von Dollar verdienen, indem wir persönliche intelligente Assistenten entwickeln?

War es hilfreich?

Lösung

In diesem Bereich wird bereits geforscht.Digitale Avatare werden mit einigem Erfolg eingesetzt.Einige der wichtigsten Punkte:

  • Moderne PCs können problemlos ein überzeugendes menschliches Gesicht in Echtzeit wiedergeben.Einfach eine mittelgroße Grafikkarte und ein gutes Modell einlegen und fertig.(sehen Dämmerung, Zum Beispiel).

  • Aktuelle Sprachgenerierungssoftware kann flüssigen Text erzeugen und ihn richtig aussprechen.Es ist immer noch etwas eintönig, da der Sprecher keine Emotionen hat.(Sehen Dieser Artikel).

  • Es wird geforscht, Maschinen „fühlen“ zu lassen.Ich sage „fühlen“, weil es im Grunde nur ein kleines Programm mit ein paar Variablen („Wut“, „Angst“, „Hunger“, „Langeweile“, „Traurigkeit“, …) und einem komplexen Regelwerk ist, das Einfluss hat diese Variablen.(Siehe die Einzelheiten finden Sie im Wikipedia-Artikel).

Das Hauptproblem besteht derzeit darin, dass wir nicht wissen, was Emotionen sind.Handelt es sich lediglich um Mengen von Molekülen, die in bestimmten Teilen des Gehirns schweben?Wenn ja, welche Moleküle und in welchem ​​Teil des Gehirns?Neurowissenschaftler versuchen heute, anhand von MRT-Bildern den Geisteszustand vorherzusagen.Um zu verstehen, was das bedeutet, hier eine Analogie:Sie versuchen zu erraten, was die Menschheit vorhat, indem sie mit bloßem Auge die Lichtverteilung des Mondes auf der Erde betrachten.

Wir verstehen also nicht, was Emotionen sind.Die nächste Hürde besteht darin, dass Emotionen ohne Kontext nichts bedeuten.Es ist einfach, ein Programm zu schreiben, das sich „traurig“ anfühlt, indem man einfach den Wert der Variablen festlegt sadness bis 1,0.Aber das würde sich komisch anfühlen, wenn es keinen Grund gäbe.Das Programm muss also in der Lage sein, dem Gespräch zu folgen und sich ein mentales Bild davon zu machen (worüber reden die Leute?). Und Wie fühlen sie sich gerade) und passen dann ihre eigene mentale Verfassung an die aktuellen Regeln der jeweiligen Gruppe an.

Du kennst das Gefühl, wenn du zum ersten Mal einer neuen Gruppe beitrittst und versuchst herauszufinden, worum es geht und wie du dich verhalten solltest.Das ist eine schwierige Aufgabe für Menschen und noch mehr für ein Programm.

Es gibt einen Artikel „Können wir eine Seele simulieren?“ (Nur Deutsch, aber die Ausgabe von Google Translate ist ziemlich gut.)

Andere Tipps

Wir können nicht den traditionellen textbasierten Turing-Test bestehen. Hinzufügen von Video oben ist irrelevant.

Ich bin nicht einverstanden mit der Anwesenheit Ihrer Frage hier, aber ich fühle es notwendig, dass Sie ernsthaft falsch verstanden zu zeigen, was der Punkt des Turing-Tests. Es hat nichts mit der Suche, wie ein Mensch zu tun, oder klingen wie ein.

In der Tat, die meist vorgeschlagenen Tests beinhalten eine Zeit verzögert Fernschreiber Terminal, so dass es so wenig Übertragung von Informationen wie möglich über die eigentliche Kommunikation, die im Test ist.

Ich hasse deine Blase zu brechen, aber die aktuelle Generation von Chatbots und sogar die fortschrittlichsten KIs im Labor ist bei weitem nicht den Turing-Test zu schlagen. Es wird deutlich, sehr schnell, dass es nicht eine reale Person gibt.

Das große Problem ist nicht Aussehen (visuell oder Gesang) zu machen, ist es Intelligenz und Emotionen zu machen.

Was Sie vorschlagen, ist die Front-End eines Realtime Shrek. Aber was ist mit dem Back-End?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top