Frage

Der Gewinner eines aktuellen Wikipedia Vandalismus Erkennung Wettbewerb legt nahe, dass die Erfassung von „verbessert werden könnte, Zufall Tastatur Erkennung trifft QWERTY unter Berücksichtigung Tastaturlayout “.

Beispiel: woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

Gibt es eine Software, dass dies bereits tut (vorzugsweise freien und Open-Source-)?

Wenn nicht gibt es ein aktives FOSS-Projekt, das Ziel ist dies zu erreichen?

Wenn nicht , wie würden Sie vorschlagen, um implementieren eine solche Software?

War es hilfreich?

Lösung

Wenn zwei Bigrams in analysierte Text sind in der Nähe in QWERTY Begriffen haben aber in der Nähe von Null statistischer Häufigkeit in Englisch Sprache (wie Paare „fg“ oder „cd“), dann gibt es Chancen, dass zufällige Tastatur Hits beteiligt sind. Wenn mehrere solcher Paare gefunden werden, dann Chance erhöht sich immens.

Wenn Sie die Verwendung beider Hände berücksichtigen wollen für bashing dann Testbriefe, die für QWERTY Nähe mit einem anderen Brief getrennt sind, aber zwei Bigramme (oder Trigramme auch) für Bigramm Frequenz. Zum Beispiel in Text "flsjf" Sie würde überprüfen F und S für QWERTY-Abstand, aber Bigramme FL und LS (oder trigram FLS) für die Frequenz.

Andere Tipps

Die meisten Tastatur Maischen neigen dazu, auf der Grundreihe in meiner Erfahrung. Es wäre ziemlich einfach zu sein, zu überprüfen, um zu sehen, ob ein hoher Anteil der verwendeten Zeichen sind asdfjkl;.

Betrachten empirische Verteilung von Sequenzen von zwei Buchstaben, dh „Wahrscheinlichkeit Brief mit einem gegebenen es Buchstaben b folgt“, all diese Wahrscheinlichkeiten füllen eine Tabelle der Größe 27x27 (unter Berücksichtigung des Raumes als ein Buchstabe).

Nun vergleichen Sie diese mit historischen Daten aus einem Bündel von Englisch / Französisch / was auch immer Texte. Verwenden Kullback Divergenz zum Vergleich.

Unter einem Ansatz, der auf Tastaturlayout einen guten Indikatoren liefert. Mit einem QWERTY-Layout werden Sie, dass rund 52% der Buchstaben in einem bestimmten Text von der obersten Zeile von Tastaturzeichen werden können. Über 32% der Zeichen wird von der Mittellinie sein und 14% der aus unterer Zeile sein. Während diese sich leicht von einer Sprache zur anderen variiert, es bleibt ein sehr klares Muster, das erkannt werden kann. Verwenden Sie die gleiche Methode zu entdecken Muster in anderen Tastaturlayouts, dann stellen Sie sicher, das Layout erkennen für einen beliebigen Text verwendet eingegeben, bevor sie für Kauderwelsch zu überprüfen. Auch wenn das Muster klar ist, ist es am besten, diese Methode als ein Indikator verwendet werden nur gegeben, dass diese Methode mit mehr Skripte am besten funktioniert. Die Verwendung anderer Indikatoren wie nicht-alpha / numerischen Zeichen gemischt mit alpha / numerisch, Textlänge usw. werden weitere Indikatoren bereitzustellen, die bei der Gewichtung der Anwendung, eine ziemlich gute Gesamtanzeige von Kauderwelsch Eintrag zur Verfügung stellen kann.

Fredley Antwort kann auf eine Grammatik erweitert werden, die Worte aus dem nahe gelegenen Buchstaben konstruieren würde.

Zum Beispiel asasasasasdf mit einer Grammatik erzeugt werden kann, dass eine Verbindung herstellt as, sa, sd und df.

Mit einer solchen Grammatik, erweitert, um alle Buchstaben auf der Tastatur (mit Buchstaben, die nebeneinander sind) könnten nach dem Parsen, geben Sie ein Maß dafür, wie viel von einem Text kann mit diesem ‚Kauderwelsch‘ Grammatik erzeugt werden.

Caveat. Natürlich jeder Text eine solche Grammatik zu diskutieren und Beispiele für ‚Kauderwelsch‘ Auflistung würde deutlich höhere Punktzahl dann einen regelmäßigen Rechtschreib geprüft Text

Zu beachten ist, dass das Beispiel Ansatz würde nicht fangen Vandalismus in Form von 'h4x0r rulezzzzz !!!!!'.

Ein weiterer Ansatz hier (die mit dem obigen Verfahren integriert werden kann) wäre statistisch ein Korpus von Vandalized Text zu analysieren und versuchen, gemeinsame Wörter in Texten mutwillig zerstört zu erhalten.

EDIT:
Da Sie QWERTY gehen davon aus, ich denke, wir Englisch annehmen könnte auch?

Was KISS - der Text durch Englisch Rechtschreibprüfung ausführen und wenn es kläglich versagt den Schluss, dass es wahrscheinlich Kauderwelsch ist (die Frage ist, will, warum schnell getippt Kauderwelsch aus zufälligem Unsinn unterscheiden oder für diese Angelegenheit von sehr schlecht geschriebenem Text? )

Alternativ, wenn andere Tastaturlayouts (Dvorak, anyone?) Und Sprachen sind in Betracht gezogen werden, dann vielleicht den Text in allen verfügbaren Sprechen Rechtschreibprüfprogramme läuft und dann gehen (dies würde die Sprache automatisch erkennen geben, auch).

Das wäre nicht sehr effiziente Methode, könnte aber als Basis-Test verwendet werden.

Hinweis:
Auf lange Sicht Ich stelle mir vor, dass Vandalen anpassen würde und beginnen mit vandalizing zum Beispiel Ausschnitte aus anderen Wikipedia-Seiten, die letztlich schwer automatisch zu erkennen als Vandalismus wäre (ok, bestehende Texte Prüfsummen und Flagge gehisst auf Duplikate werden könnte, aber wenn Text aus einer anderen Quelle stammen würde es letztlich schwierig sein).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top