reCAPTCHA に似たシステムを設計するにはどうすればよいですか?

StackOverflow https://stackoverflow.com/questions/941894

  •  06-09-2019
  •  | 
  •  

質問

私は SO で使用されている CAPTCHA システムに興味を持っています...について詳しく知りたいのですが」多くの要因" これにより reCAPTCHA が機能します。当然のことながら、開発者は悪用の可能性を考慮して、システムの正確な内部動作についてはかなり沈黙を保っています...しかし、その行動は十分に文書化されているので、おそらく私の好奇心はまだ満たされるでしょう。

reCAPTCHA のクローンを設計するとしたら、どうすればよいでしょうか?


reCAPTCHA では次のことが可能になります。

  1. 入力ミス
  2. 人々がそれを行う場所で。 これは、エラーに関する履歴データを取得し、それに基づいてアルゴリズムを作成する必要があることを示唆しています。

入力ミスを検出するには、データベースを広範囲に使用する必要があります。1 つはデジタル化されている書籍の単語、もう 1 つは既知の単語です。

技術的な既知の詳細

  1. 2 つのデータベース:1 つは既知の単語用、もう 1 つは未知の単語用
  2. 後続の単語の組み合わせデータベース

不明な技術的な詳細

  1. 異なるデータベースからの単語の組み合わせを確認できるように、単語を即座に分離するにはどうすればよいでしょうか? 今回は信号処理についてです。
  2. 2 つのデータベースのデータをユーザーに提供するにはどうすればよいですか?
  3. 2 つの別々のデータベース内のデータの最初の形式はどれですか?PDF?
  4. 2 つのデータベースのデータを結合した場合、その後のデータの形式はどれですか?PDF?
  5. データを 2 つの PDF ファイルから 1 つに結合するにはどうすればよいですか?
  6. 画像を効果的に回転するにはどうすればよいでしょうか?
  7. 本から画像を分離するためにどのアルゴリズムが使用されていますか?

関連トピック

  1. 信号処理
  2. 微積分:単語検出のアルゴリズムにはフーリエやラプラスなどの級数が含まれます。
  3. 確率論:たとえば、信頼区間が 95 の場合にのみ渡される「コンピュータと人間」の係数を持つ
  4. 多分 整数論:データの保存と比較を効果的に行う必要がある
役に立ちましたか?

解決

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top