La détection clavier aléatoire frappe considérant la disposition du clavier QWERTY

https://stackoverflow.com/questions/3802232

25-09-2019
|

Question

Le gagnant d'un récent concours de détection de vandalisme Wikipédia suggère que pourrait être améliorée par la détection « détection clavier QWERTY aléatoire frappe considérant la disposition du clavier ».

Exemple: woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

Y at-il un logiciel qui ne présente déjà (de préférence libre et open source )?

Si pas , est-il un projet FOSS actif dont objectif est d'y parvenir?

Si pas , comment suggérez-vous à mettre en œuvre un tel logiciel?

La solution

Si deux bigrams dans le texte analysé sont proches en termes QWERTY, mais ont proche de zéro fréquence statistique langue anglaise (comme paires « fg » ou « cd ») alors il y a la chance qui frappe clavier au hasard sont impliqués. Si plusieurs de ces paires se trouvent alors risque augmente considérablement.

Si vous voulez prendre en compte l'utilisation des deux mains pour dénigrement alors des lettres de test qui sont séparés par une autre lettre pour la proximité QWERTY, mais deux bigrammes (ou même trigrammes) pour la fréquence de bigramme. Par exemple, dans le texte « flsjf » vous vérifiez F et S pour la distance QWERTY, mais bigrams FL et LS (ou trigramme services en français) pour la fréquence.

Autres conseils

La plupart empâtage du clavier a tendance à être sur la ligne de la maison dans mon expérience. Il serait assez simple de vérifier si une forte proportion des caractères utilisés sont asdfjkl;.

Considérons la distribution empirique des séquences de deux lettres, soit « probabilité d'avoir une lettre donnée il suit la lettre b », toutes ces probabilités remplir un tableau de taille 27x27 (en considérant l'espace comme une lettre).

Maintenant, comparer avec les données historiques d'un groupe de / whatever textes anglais / français. Utilisez divergence Kullback pour la comparaison.

Adopter une approche basée sur la mise en page du clavier fournira un bon indicateur. Avec une disposition QWERTY, vous trouverez que près de 52% des lettres dans un texte donné sera de la première ligne de caractères du clavier. Environ 32% des caractères sera de la ligne médiane et 14% sera de la ligne de fond. Bien que cela varie légèrement d'une langue à l'autre, il reste un schéma très clair qui peut être détectée. Utilisez la même méthode pour découvrir des modèles dans d'autres dispositions de clavier, vous assurez détectez la mise en page utilisée pour tout texte entré avant de vérifier charabia. Même si le modèle est clair, il est préférable d'utiliser cette méthode comme un seul indicateur, étant donné que cette méthode fonctionne mieux avec des scripts plus longs. L'utilisation d'autres indicateurs tels que les caractères non-alpha / numériques mélangés avec alpha / numérique, la longueur du texte, etc. fournira d'autres indicateurs lors de l'application de pondération, peut fournir une assez bonne indication globale d'entrée de charabia.

La réponse de Fredley peut être étendue à une grammaire qui construirait des mots des lettres voisines.

Par exemple asasasasasdf pourrait être généré avec une grammaire qui relie as, sa, sd et df.

Avec une telle grammaire, étendue à toutes les lettres sur le clavier (avec des lettres qui sont à côté de l'autre) pourrait, après analyse, vous donner une mesure de la quantité d'un texte peut être généré avec cette grammaire « charabia ».

caveat. Bien sûr, tout texte débattons de la grammaire et liste des exemples de texte « charabia » marquerait nettement plus élevé alors un texte vérifié orthographique régulière

Ne noter que l'approche exemple ne serait pas attraper le vandalisme sous la forme de «h4x0r rulezzzzz !!!!!.

Une autre approche ici (qui peut être intégré à la méthode ci-dessus) serait d'analyser statistiquement un corpus de texte vandalisé et essayer d'obtenir des mots communs dans les textes vandalisés.

EDIT:
Puisque vous assumez QWERTY, je suppose que nous pourrions supposer l'anglais aussi?

Qu'en est-KISS - exécuter le texte par le correcteur orthographique anglais et si elle échoue lamentablement conclure qu'il est probablement charabia (la question est, pourquoi veulent distinguer charabia rapidement tapé de non-sens au hasard ou pour cette question de texte très mal orthographié? )

Par ailleurs, si d'autres dispositions de clavier (Dvorak, anyone?) Et les langues sont à considérer, puis exécutez peut-être le texte par tous les correcteurs d'orthographe de langue disponibles et passer ensuite (cela donnerait autodetect la langue, aussi).

Ce ne serait pas la méthode très efficace, mais il pourrait être utilisé comme test de référence.

Note:
À long terme, je pense que les vandales s'adapter et commencer à vandaliser avec, par exemple, des extraits d'autres pages de wikipedia, qui seraient finalement difficiles à détecter automatiquement le vandalisme (ok, textes existants pourraient être checksummed et drapeau levé sur les doublons, mais si le texte est venu d'une autre source, il serait finalement difficile).

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow