Обнаружение случайных ударов клавиатуры с учетом макета клавиатуры QWERTY

https://stackoverflow.com/questions/3802232

25-09-2019
|

Вопрос

То Победитель недавней конкуренции обнаружения вандализма Википедии в Википедии предполагает, что обнаружение может быть улучшено "Обнаружение случайных ударов клавиатуры с учетом макета клавиатуры QWERTY".

Пример: woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

Есть ли программное обеспечение, которое Это уже делает это (предпочтительно Свободный и открытый источник) ?

Если не, есть ли активный проект FOSS, чей цель это достичь этого?

Если не, как бы вы предложили воплощать в жизнь Такое программное обеспечение?

Решение

Если два биграмс В проанализированном тексте близко к срокам QWERTY, но имеют около нулевой статистической частоты на английском языке (например, пары «FG» или «CD»), то есть вероятность того, что случайные удары клавиатуры участвуют. Если найдете больше таких пар, то шанс значительно увеличивается.

Если вы хотите принять во внимание использование обеих рук для Bashing, затем тестируемые буквы, которые разделены с другим письмом для близости QWERTY, но две биграммы (или даже триграммами) для частоты Bigram. Например, в тексте «FLSJF» вы бы проверили F и S для расстояния QWERTY, но Bigrams fl и Ls (или Trigram FLS) для частоты.

Другие советы

Большая часть клавиатуры имеет тенденцию быть в домашнем ряду в моем опыте. Было бы достаточно просто проверить, если высокая доля используемых символов asdfjkl;.

Рассмотрим эмпирическое распределение последовательностей двух букв, то есть «вероятность того, что имело письмо с данным следует за буквой B», все эти вероятности заполняют таблицу размера 27x27 (учитывая пространство в качестве буквы).

Теперь сравните это с историческими данными из куча английского языка / французский / какие бы тексты. Используйте расхождение кухни для сравнения.

Принимая подход на основе макета клавиатуры, обеспечит хороший индикатор. С QWerty Layout вы обнаружите, что около 52% букв в любом данном тексте будут с верхней строки символов клавиатуры. Около 32% персонажей будут со средней линии, и 14% будут состоится из нижней линии. Хотя это немного варьируется от одного языка к другому, остается очень четкий рисунок, который можно обнаружить. Используйте ту же методологию для обнаружения шаблонов в других макетах клавиатуры, затем убедитесь, что вы обнаружите макет, используемую для любого текста, введенного перед проверкой гибберов. Несмотря на то, что шаблон ясен, лучше всего использовать этот метод как один индикатор, учитывая, что эта методология лучше всего работает с более длинными сценариями. Использование других индикаторов, таких как некомкаувые / числовые символы, смешанные с альфа / числовым, длиной текста и т. Д., Предоставляют дополнительные показатели, которые при нанесении взвешивания могут обеспечить довольно хорошую общую индикацию записи гибберов.

Ответ Фредли может быть распространен на грамматику, которая построит слова из близлежащих букв.

Например asasasasasdf может быть сгенерирован с грамматикой, которая соединяет as, sa, sd а также df.

С такой грамматикой, расширенной до всех букв на клавиатуре (с буквами, которые рядом друг с другом) могут, после разбора, дайте вам меру того, сколько текста может быть сгенерировано с этой «гибберской» грамматикой.

Предостережение: Конечно, любой текст, обсуждаемый такой грамматикой и листинговыми примерами текста «Гиббериш», будет набрать значительно выше, чем обычный текст проверяется заклинанием.

Обратите внимание, что примерный подход не поймал вандализм в виде «H4x0R relzzzzzzzzzzzzzzz !!!!!».

Еще один подход здесь (который можно интегрировать с вышеуказанным методом) было бы статистически анализировать корпус вандализованного текста и попытаться получить общие слова в вандализированных текстах.

РЕДАКТИРОВАТЬ:
Поскольку вы предполагаете, что QWERTY, я думаю, мы тоже могли бы предположить английский?

А как насчет поцелуя - запустить текст по английскому обращению к английской проверке орфографии, и если оно не срабатывает с тресказом.

В качестве альтернативы, если будут рассмотрены другие макеты клавиатуры (DVORAK, любой?) И языки, которые должны быть рассмотрены, то, возможно, запустите текст через все доступные проверки языковых орфографии, а затем продолжить (это тоже даст языковым AutoDETECT, также).

Это не будет очень эффективным методом, но может использоваться в качестве базового теста.

Примечание:
В долгосрочной перспективе я представляю, что вандалы адаптируются и начнут вандализуют, например, выдержки с других страниц Википедии, что в конечном итоге усердно автоматически определить, как вандализм (ОК, существующие тексты могут быть проверяться, и флаг поднял на дубликаты, но если текст пришел из какого-то другого источника, это было бы в конечном итоге тяжело).

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow