質問

これを学術的に尋ねます。非常に重要な質問を声に出して聞き、コミュニティに答えてもらいたいです。入力されたテキストを読み取り、チャットボットで応答できるライブの匿名グループビデオチャットルームに沿って再生するシーンを生成するシステムを構築できますか?

ライブインターネットビデオはしばしばぼやけており、解像度が低くなっています。遠くのパーティーの場面で多くの詳細を明らかにすることはできません。シーンは、移動していないときに非常にリアルに見える最新のソフトウェアツールでレンダリングできます。それらをリアルに動かすことは、シミュレーションソフトウェアの大きな部分です。

顔は、1秒あたり1フレームが可能な24システムのクラスターによって、1秒あたり24フレームでレンダリングできます。ビデオには、どの表情を生成するかについて決定が行われた時点から1秒の遅れが生じます。これらの表情とその生成は重要な問題です。肌のリアリズムの要件は、グラフィックコミュニティによって解決された問題です。

顔の表情はいくつかの研究者によって分類されています。また、レンダリングすることもできますが、これは現代のコンピューターグラフィックスの文献に示されています。どの状況が特定の状況に適しているかを知ることができれば、それらを行うことができます。

チャットボットは何十年も使用されています。現在では、「スマート」なチャットプログラムが存在し、質問された内容を読み取り、適切な方法で返信します。彼らは常にテキストでこれを行ってきましたが、テキストリーダーソフトウェアは人間のような声で発声することができ、音声認識ソフトウェアは毎年改善されています。

私が提案するのは、ソフトウェア開発のこれらのバラバラな部分をすべて接続し、真に驚くべきチューリングテストビーターを作成することは非常に初歩的であるべきという事実です。

このプログラムは、仮想空間に入り、他の参加者のようなウェブカメラ上にあるかのように現実的な環境を表示できます。顔の表情を見ることができ、スピーチを聞くことができ、テキストを読むことができます。次に、応答を作成し、入力するか、グループに返信します。何に対応するかを選択することは、ほとんどの人でさえマスターしていない難しい問題です。私たちは多くの作業でそれを近づけることができます。

チューリングテストは、コミュニケーターが人間であることを証明することですが、人間の裁判官をだますのに十分であるという意味でのみ「証明」します。人間の裁判官が単に全員である場合、彼らはおそらく厳密な正式な手順を適用しません。トリックを推測したり落としたりするだけで十分です。

これができると思いますか?

この計画には欠陥がありますか?このように平均的な視聴者をだますことには道徳的な意味がありますか?パーソナルインテリジェントアシスタントを生成することで、数百万ドルを稼げますか?

役に立ちましたか?

解決

この分野ではすでに研究が行われています。デジタルアバターはある程度の成功を収めています。キーポイントのいくつか:

  • 最新のPCは、説得力のある人間の顔をリアルタイムで、問題なくレンダリングできます。中程度のgfxカードと良いモデルを入れるだけで完了です。 (たとえば、 Dawn を参照してください。)

  • 現在の音声生成ソフトウェアは流なテキストを生成でき、適切に発音できます。話者には感情がないので、まだ少し単調です。 (この記事を参照)。

  • 機械を「感じる」ための研究があります。 「感じる」と言う基本的には、いくつかの変数(「怒り」、「恐怖」、「飢え」、「退屈」、「悲しみ」、...)と影響を与える複雑なルールセットを備えた小さなプログラムであるためこれらの変数。 (詳細についてはウィキペディアの記事を参照してください。)

現在の主な問題は、感情とは何かを知らないことです。脳の特定の部分に浮かぶ分子の量だけですか?もしそうなら、どの分子と脳のどの部分に?今日、神経科学者はMRT画像を見て心の状態を予測しようとしています。これが何を意味するのかを理解するために、ここに例えがあります。彼らは肉眼で月からの地球上の光の分布を見て、人類が何をしているのかを推測しようとします。

したがって、感情とは何かを理解していません。次のハードルは、感情が文脈なしでは何も意味しないということです。 「悲しい」と感じるプログラムを書くのは簡単です。変数 sadness の値を1.0に設定するだけです。しかし、理由がなければそれは奇妙に感じるでしょう。そのため、プログラムは会話をフォローし、それについてのメンタルイメージを構築し( 今の気分はどうですか)、現在のルールに従って自分の精神状態を調整できる必要がありますそれぞれのグループの

新しいグループに初めて参加したときの気持ちを知っており、何が起こっているのか、どのように振る舞うべきかを把握しようとします。それは人間にとっては難しい作業であり、プログラムにとってはさらに難しい作業です。

記事" Kö nnen wir eine Seele simulieren?" (Gemanのみ出力Google翻訳のはかなり良いです。)

他のヒント

従来のテキストベースのチューリングテストに合格することはできません。上にビデオを追加することは関係ありません。

ここでの質問の存在には同意しませんが、チューリングテストのポイントが何であるかを大きく誤解していることを指摘する必要があると思います。人間のように見えることや、人間のように聞こえることとは関係ありません。

実際に、提案されているテストのほとんどは時間遅延型のテレタイプ端末を使用しているため、テスト中の実際の通信を超える情報の転送は可能な限り少なくなっています。

バブルを壊したくありませんが、現在のチャットボットの世代、およびラボの最先端のAIでさえ、チューリングテストに勝るものはありません。実在する人物がいないことがすぐに明らかになります。

大きな問題は、外観(視覚または声)をレンダリングすることではなく、知性と感情をレンダリングすることです。

提案するのは、リアルタイムシュレックのフロントエンドです。しかし、バックエンドはどうですか?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top