Как я могу разработать систему, похожую на reCAPTCHA?
Вопрос
Я очарован системой CAPTCHA, используемой в SO...Я хотел бы узнать больше о "многие факторы", которые обеспечивают работу reCAPTCHA.Разработчики, по понятным причинам, учитывая возможность злоупотреблений, хранят молчание о точной внутренней работе своей системы...Но поведение хорошо задокументировано, так что, возможно, мое любопытство еще можно удовлетворить:
Если бы мне пришлось создать клон reCAPTCHA, как бы я это сделал?
reCAPTCHA позволяет:
- опечатка
- в месте, где люди это делают. Это подсказывает мне, что вам нужно иметь исторические данные об ошибках, а затем на их основе создавать алгоритм.
Обнаружение опечаток требует широкого использования баз данных:один для слов из оцифрованных книг, а другой для известных слов.
Известные технические детали
- две базы данных:один для известных слов, а другой для неизвестных слов
- последующая база данных для сочетания слов
Неизвестные технические подробности
- Как можно разделить слова на лету так, чтобы вы видели комбинацию слов из разных баз данных? Речь идет об обработке сигналов.
- Как можно предоставить пользователю данные из двух баз данных?
- Какова первоначальная форма данных в двух отдельных базах данных?PDF?
- Какова последующая форма данных при объединении данных из двух баз данных?PDF?
- Как можно объединить данные из двух PDF-файлов в один?
- Как эффективно вращать изображения?
- Какие алгоритмы используются для отделения изображений от книги?
похожие темы
- обработка сигнала
- исчисление:ряды, такие как Фурье и Лаплас, для алгоритмов обнаружения слов.
- теория вероятности:иметь коэффициент «компьютерно-человеческий», который передается только в том случае, если он, например, имеет доверительный интервал 95
- Возможно теория чисел:нам нужно эффективно хранить и сравнивать данные
Решение
Не связан с StackOverflow