我从学术角度问这个问题,我想大声问一个非常重要的问题,并让社区尝试回答它。我们能否构建一个系统,生成一个场景,在实时匿名群组视频聊天室中播放,该聊天室可以读取在其中输入的文本并通过聊天机器人进行响应?

实时互联网视频通常很模糊且分辨率较低。远处的场景中,很多细节我们都看不清。场景可以使用现代软件工具进行渲染,在不移动时看起来非常真实。让它们真实地移动是一个很大的模拟软件。

由 24 个每秒 1 帧的系统组成的集群可以以每秒 24 帧的速度渲染面部。然后,从决定生成哪种面部表情的点开始,视频会有 1 秒的延迟。这些面部表情及其生成是一个关键问题。皮肤真实感要求是图形社区已解决的问题。

一些研究人员已经对面部表情进行了分类。它们也可以被渲染,这已经在现代计算机图形文献中得到了证明。如果我们知道哪些方法适合特定情况,我们就可以做到。

聊天机器人已经使用了几十年。现在存在相当“智能”的聊天程序,它们会读取所询问的内容并以合理的方式进行回复。他们一直用文本来做到这一点,但文本阅读器软件可以用类似人类的声音说话,而且语音识别软件每年都在变得更好。

我的建议是,连接软件开发的所有这些不同部分并创建一些真正令人惊叹的图灵测试击败器应该是相当基本的。

该程序可以进入虚拟空间并像其他参与者一样在网络摄像头上显示真实的环境。它可以观察他们的面部表情,可以听他们的讲话,也可以阅读他们的文字。然后,它可以创建一个响应,并输入或说出该响应给小组。选择回应什么是一个难题,甚至大多数人都没有掌握。我们可以通过大量工作来接近它。

图灵测试旨在证明通信者是人类,但“证明”仅在于它足以愚弄人类法官。如果人类法官只是所有人,他们不太可能采用严格的正式程序。猜测或被骗就足够了。

你认为我们能做到吗?

这个计划有缺陷吗?以这种方式欺骗普通观众是否有道德含义?我们可以通过开发个人智能助理赚到数百万美元吗?

有帮助吗?

解决方案

该领域已经有研究正在进行。数字化身的使用已经取得了一些成功。一些要点:

  • 现代电脑可以实时渲染令人信服的人脸,这没有问题。只需放入一张中等大小的 gfx 卡和一个好的模型就可以了。(看 黎明, , 例如)。

  • 当前的语音生成软件可以生成流畅的文本并且能够正确发音。由于说话者没有情感,所以还是有点单调。(看 本文).

  • 有研究让机器有“感觉”。我说“感觉”是因为它基本上只是一个小程序,有几个变量(“愤怒”、“恐惧”、“饥饿”、“无聊”、“悲伤”……)和一组影响的复杂规则这些变量。(参见 维基百科文章了解详细信息).

现在的主要问题是我们不知道情绪是什么。它们只是漂浮在大脑某些部位的大量分子吗?如果是的话,是哪些分子以及大脑的哪个部分?今天的神经科学家试图通过观察 MRT 图像来预测心理状态。为了理解这意味着什么,这里有一个类比:他们试图通过用肉眼观察月球上的光在地球上的分布来猜测人类在做什么。

所以我们不明白什么是情绪。下一个障碍是,如果没有背景,情绪就毫无意义。只需设置变量的值就很容易编写出让人感到“悲伤”的程序 sadness 到 1.0。但如果没有理由的话,就会感觉很奇怪。因此,程序必须能够跟上对话,在心里建立一个形象(人们在谈论什么) 他们现在感觉如何),然后按照各自小组当前的规则调整自己的心理状态。

你知道第一次加入一个新团体时的感觉,并试图了解正在发生的事情以及你应该如何表现。这对于人类来说是一项艰巨的任务,对于程序来说更是如此。

有一篇文章 “Können wir eine Seele simulieren?” (仅限德语​​,但 谷歌翻译的输出 相当不错。)

其他提示

我们无法通过基于图灵测试传统的文字。在顶部增加视频是无关紧要的。

我不同意你的问题的存在在这里,但我觉得有必要指出的是,你已经严重误解了图灵测试的点是什么。它无关,与看起来像一个人,或者听起来像一个。

在事实上,大多数建议测试涉及一个时间延迟电传终端,所以的信息尽可能少传递尽可能超出了实际通信是受测试

我不想破坏你的泡沫,但目前这一代的聊天机器人,甚至最先进的人工智能实验室是隔靴搔痒击败图灵测试。它很快变得明显,有没有一个真正的人那里。

最大的问题是不使外观(视觉或声),它是使情报和情绪。

什么你的建议是一个实时的史莱克的前端。但对于后端?

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top