Domanda

Il vincitore di un recente concorso Wikipedia rilevamento vandalismo suggerisce che la diagnosi potrebbe essere migliorata " rilevare tastiera qwerty casuale colpisce considerando layout di tastiera ".

Esempio: woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

Esiste un software che fa già (preferibilmente libero e open source )?

Se non , c'è un progetto FOSS attivo il cui obiettivo è quello di raggiungere questo obiettivo?

Se non , come è possibile suggerire a implementare un tale software?

È stato utile?

Soluzione

Se due bigrammi nel testo analizzato sono vicini in termini qwerty ma hanno vicino allo zero in frequenza statistica lingua inglese (come coppie "fg" o "cd") allora non c'è possibilità che colpi di tastiera a caso sono coinvolti. Se più tali coppie si trovano quindi aumenta la probabilità notevolmente.

Se si vuole prendere in considerazione l'uso di entrambe le mani per colpire poi lettere test che sono separati con un'altra lettera per QWERTY vicinanza, ma due bigrammi (o trigrammi anche) per la frequenza bigram. Ad esempio, nel testo "flsjf" si dovrebbe verificare F e S per la distanza QWERTY, ma bigrammi FL e LS (o trigramma FLS) per la frequenza.

Altri suggerimenti

La maggior parte schiacciare tastiera tende ad essere in prima fila a casa nella mia esperienza. Sarebbe abbastanza semplice da controllare per vedere se una percentuale elevata dei caratteri utilizzati sono asdfjkl;.

Si consideri la distribuzione empirica di sequenze di due lettere, vale a dire "probabilità di avere la lettera di un dato segue la lettera b", tutto questo le probabilità riempire una tabella di dimensione 27x27 (considerando lo spazio come una lettera).

Ora, confrontare questo con i dati storici da un gruppo di inglese / / francese qualunque testi. Usa Kullback divergenza per il confronto.

L'assunzione di un approccio basato sul layout della tastiera fornirà un buon indicatore. Con layout QWERTY a troverete che circa il 52% delle lettere in ogni testo sarà dalla linea superiore di caratteri della tastiera. Circa il 32% dei personaggi sarà dalla linea centrale e il 14% di sarà da linea di fondo. Mentre questo varia leggermente da una lingua all'altra, resta un modello molto chiaro che può essere rilevato. Utilizzare la stessa metodologia per scoprire i modelli in altri layout di tastiera, quindi assicurarsi di rilevare il layout utilizzato per qualsiasi testo inserito prima di controllare per parole senza senso. Anche se il modello è chiaro, è meglio usare questo metodo come un indicatore unico dato che questa metodologia funziona meglio con gli script più lunghi. Utilizzando altri indicatori quali la non-alfa / caratteri numerici mescolati con alfa / numerici, lunghezza del testo ecc forniranno ulteriori indicatori che quando si applicano ponderazione, in grado di fornire una buona indicazione complessiva di entrata incomprensibile.

La risposta di Fredley può essere esteso a una grammatica che costruire parole dalle lettere vicine.

Per esempio asasasasasdf potrebbe essere generata con una grammatica che collega as, sa, sd e df.

Con tale grammatica, esteso a tutte le lettere sulla tastiera (con le lettere che sono uno accanto all'altro) potrebbe, dopo l'analisi, vi darà una misura di quanto di un testo può essere generato con questo 'senza senso' grammatica.

Caveat:. Naturalmente, qualsiasi testo discutere come la grammatica e la messa in vendita di esempi di testo 'senza senso' sarebbe punteggio significativamente più alto quindi un testo normale incantesimo-controllato

Do atto che l'approccio ad esempio non avrebbe pescato atti di vandalismo nella forma di 'h4x0r rulezzzzz !!!!!'.

Un altro approccio qui (che può essere integrato con il metodo di cui sopra) sarebbe quello di analizzare statisticamente un corpus di testi Vandalised e cercare di ottenere parole comuni nei testi vandalizzate.

EDIT:
Dal momento che si stanno assumendo QWERTY, credo che potremmo assumere inglese, troppo?

Che dire KISS - eseguire il testo attraverso inglese correttore ortografico e se fallisce miseramente concludere che probabilmente è incomprensibile (la domanda è: perché vuole distinguere senza senso velocemente digitato da sciocchezze casuale o per quella materia dal testo molto male farro? )

In alternativa, se altri layout di tastiera (Dvorak, chiunque?) E le lingue sono da considerarsi, quindi forse è meglio eseguire il testo attraverso tutte le pedine lingua di incantesimi disponibili e poi procedere (questo darebbe lingua rilevazione automatica, troppo).

Ciò non sarebbe metodo molto efficace, ma potrebbe essere usato come un test basale.

Nota:
Nel lungo periodo immagino che vandali avrebbero adattato e avviare atti vandalici con, per esempio estratti da altre pagine di Wikipedia, che sarebbe in ultima analisi, difficile da rilevare automaticamente come atti di vandalismo (ok, i testi esistenti potrebbero essere checksum e bandiera allevati in duplicati, ma se il testo è venuto da qualche altra fonte sarebbe in ultima analisi, duro).

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top