문제

나는 이것을 학문적으로 묻습니다. 나는 매우 중요한 질문을 소리내어 묻고 커뮤니티가 대답하려고합니다. 실시간 익명 그룹 비디오 채팅방을 따라 재생할 장면을 생성하는 시스템을 구축 할 수 있습니까?

라이브 인터넷 비디오는 종종 흐릿하며 해상도가 낮습니다. 먼 파티 장면에서 많은 세부 사항을 만들 수 없습니다. 장면은 움직이지 않을 때 매우 현실적으로 보이는 최신 소프트웨어 도구로 렌더링 할 수 있습니다. 현실적으로 움직이는 것은 큰 시뮬레이션 소프트웨어입니다.

얼굴은 초당 1 프레임을 사용할 수있는 24 개의 시스템의 클러스터에 의해 초당 24 프레임으로 렌더링 될 수 있습니다. 그런 다음 비디오는 어떤 얼굴 표정을 생성하는 지에 대한 결정이 이루어진 지점에서 1 초의 지연을 가질 것입니다. 이러한 얼굴 표정과 그 세대는 주요 문제입니다. 스킨 현실주의 요구 사항은 그래픽 커뮤니티의 해결 된 문제입니다.

얼굴 표정은 여러 연구원들에 의해 분류되었습니다. 그들은 또한 렌더링 될 수 있으며, 이것은 현대 컴퓨터 그래픽 문헌에서 보여졌습니다. 주어진 상황에 적합한 것이 어느 것이 적절한 지 알 수 있다면 우리는 그들을 할 수 있습니다.

챗봇은 수십 년 동안 사용해 왔습니다. 지금은 꽤 '똑똑한'채팅 프로그램이 존재하는 내용을 읽고 현명한 방식으로 답장 할 수 있습니다. 그들은 항상 텍스트 로이 작업을 수행했지만 텍스트 리더 소프트웨어는 인간의 목소리로 말할 수 있으며 음성 인식 소프트웨어는 매년 더 좋아지고 있습니다.

내가 제안한 것은 소프트웨어 개발과 같은 이질적인 부분을 모두 연결하고 진정으로 놀라운 튜링 테스트 비터를 만드는 것이 매우 기초적이어야한다는 사실입니다.

이 프로그램은 가상 공간에 들어가서 다른 참가자와 마찬가지로 웹캠에서 현실적인 환경을 표시 할 수 있습니다. 그것은 얼굴 표정을 볼 수 있으며 연설을들을 수 있으며 텍스트를 읽을 수 있습니다. 그런 다음 응답을 생성하고 그룹에 유형 또는 다시 말할 수 있습니다. 대응해야 할 내용을 선택하는 것은 대부분의 인간조차도 마스터하지 않은 어려운 문제입니다. 우리는 많은 작업으로 그것을 가까이 갈 수 있습니다.

튜링 테스트는 의사 소통자가 인간이라는 것을 증명하는 것입니다. 그러나 인간의 판사를 속이는 것이 충분하다는 의미에서만 '증거'. 인간 판사가 단순히 모든 사람이라면 엄격한 공식적인 절차를 적용하지 않을 것입니다. 트릭을 추측하거나 떨어지는 것만으로는 충분합니다.

우리가 이것을 할 수 있다고 생각하십니까?

이 계획은 결함이 있습니까? 이런 식으로 평균 시청자를 속이는 도덕적 영향이 있습니까? 개인 지능적인 조수를 생산하여 수백만 달러를 벌 수 있습니까?

도움이 되었습니까?

해결책

이 분야에는 이미 연구가 진행 중입니다. 디지털 아바타는 약간의 성공으로 사용되었습니다. 핵심 사항 중 일부 :

  • 최신 PC는 설득력있는 사람의 얼굴을 실시간으로 만들 수 있습니다. 중간 GFX 카드와 좋은 모델을 넣으면 완료됩니다. (보다 새벽, 예를 들어).

  • 현재 음성 생성 소프트웨어는 유창한 텍스트를 생성 할 수 있으며 올바르게 발음 할 수 있습니다. 스피커에 감정이 없기 때문에 여전히 단조로운 일입니다. (보다 이 기사).

  • 기계를 "느낌"으로 만드는 연구가 있습니다. 나는 기본적으로 몇 가지 변수 ( "분노", "두려움", "굶주림", "지루한", "슬픔", ...)와 영향을 미치는 복잡한 규칙 세트가있는 작은 프로그램이기 때문에 "느낌"이라고 말합니다. 이 변수. (참조 자세한 내용은 Wikipedia 기사).

지금 주요 문제는 우리가 감정이 무엇인지 모른다는 것입니다. 그들은 뇌의 특정 부분에 떠 다니는 분자의 양입니까? 그렇다면, 어떤 분자와 뇌의 어느 부분에서? 오늘날 신경 과학자들은 MRT 이미지를 보면서 마음의 상태를 예측하려고 노력합니다. 이것이 무엇을 의미하는지 이해하기 위해 여기에 비유가 있습니다. 그들은 알몸의 눈으로 달에서 지구의 빛의 분포를 보면 인류가 무엇을하고 있는지 추측하려고 노력합니다.

그래서 우리는 감정이 무엇인지 이해하지 못합니다. 다음 장애물은 감정이 맥락 없이는 아무 의미가 없다는 것입니다. 변수의 값을 설정하여 "슬픈"느낌을받는 프로그램을 작성하는 것은 쉽습니다. sadness 1.0까지. 그러나 이유가 없다면 그것은 이상하게 느껴질 것입니다. 따라서 프로그램은 대화를 따르고 정신적 이미지를 구축 할 수 있어야합니다 (사람들이 이야기하는 것은 무엇입니까? 그리고 지금은 어떻게 느끼고 있습니까?) 각 그룹의 현재 규칙에 따라 자신의 정신 상태를 조정하십시오.

당신은 처음으로 새로운 그룹에 가입했을 때의 느낌을 알고 있으며 무슨 일이 일어나고 있는지, 어떻게 행동 해야하는지에 대한 그립을 얻으려고 노력합니다. 그것은 인간에게는 어려운 일이며 프로그램의 경우 더욱 그렇습니다.

기사가 있습니다 "Können Wir Eine Seele Simulieren?" (Geman 만이지만 Google 번역의 출력 꽤 좋습니다.)

다른 팁

우리는 전통적인 텍스트 기반 튜링 테스트를 통과 할 수 없습니다. 상단에 비디오를 추가하는 것은 관련이 없습니다.

나는 여기서 당신의 질문의 존재에 동의하지 않지만, 당신이 튜링 테스트의 요점이 무엇인지 심각하게 오해했다고 지적해야한다고 생각합니다. 그것은 인간처럼 보이거나 하나처럼 들리는 것과는 아무런 관련이 없습니다.

실제로, 대부분의 제안 된 테스트에는 시간 지연 텔레타이프 터미널이 포함되므로 테스트중인 실제 커뮤니케이션 이외의 정보가 거의 전송되지 않습니다.

나는 당신의 거품을 끊는 것을 싫어하지만, 현재 세대의 챗봇, 그리고 실험실에서 가장 진보 된 AI조차도 튜링 테스트를 치르고있는 곳은 거의 없습니다. 거기에 실제 사람이 없다는 것은 매우 빨리 분명해집니다.

가장 큰 문제는 외모 (시각적 또는 보컬)를 만들어내는 것이 아니라 지능과 감정을 렌더링하는 것입니다.

당신이 제안한 것은 실시간 슈렉의 프론트 엔드입니다. 그러나 백엔드는 어떻습니까?

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top