Pregunta

El de una reciente Wikipedia competencia detección de vandalismo sugiere que la detección podría mejorarse " detectar teclado QWERTY al azar golpea teniendo en cuenta Teclado diseño ".

Ejemplo: woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

¿Hay algún software que hace esto ya (preferiblemente libre y de código abierto )?

Si no , no es un proyecto de software libre activo cuya objetivo es lograr esto?

Si no , ¿cómo le sugeriría a implementar un software?

¿Fue útil?

Solución

Si Bigramas en texto analizado están cerca en términos QWERTY pero tienen cerca de cero en la frecuencia estadística idioma Inglés (como pares "fg" o "CD"), entonces hay posibilidades de que golpes de teclado aleatorias están involucrados. Si se encuentran más de tales pares entonces aumenta la probabilidad en gran medida.

Si usted quiere tomar en cuenta el uso de ambas manos para golpear luego cartas de prueba que se separan con otra carta para QWERTY cercanía, sino dos Bigramas (o incluso trigramas) para la frecuencia bigram. Por ejemplo, en el texto "flsjf", deberá comprobar F y S para la distancia QWERTY, pero Bigramas FL y LS (o trigrama FLS) para la frecuencia.

Otros consejos

La mayoría de maceración teclado tiende a estar en la primera casa, en mi experiencia. Sería bastante fácil de comprobar para ver si una alta proporción de los caracteres utilizados son asdfjkl;.

Considere distribución empírica de secuencias de dos letras, es decir, "probabilidad de tener carta una dada se deduce letra b", todo esto probabilidades llenan una tabla de tamaño 27x27 (teniendo en cuenta el espacio como una letra).

Ahora, compare esto con los datos históricos de un montón de / Inglés / francés lo textos. Uso Kullback divergencia para la comparación.

Tomando un enfoque basado en la distribución del teclado proporcionará un buen indicador. Con un teclado QWERTY de diseño que dará cuenta de que alrededor del 52% de las cartas en cualquier texto será a partir de la línea superior de los caracteres del teclado. Alrededor del 32% de los caracteres será a partir de la línea media y el 14% de la será de cuenta de resultados. Si bien esto varía ligeramente de un idioma a otro, sigue existiendo un patrón muy claro que se puede detectar. Utilizar la misma metodología para descubrir patrones en otras disposiciones de teclado, a continuación, asegúrese de detectar la disposición usada en todo el texto introducido antes de buscar un galimatías. A pesar de que el patrón es claro, lo mejor es utilizar este método como un indicador sólo teniendo en cuenta que esta metodología funciona mejor con guiones largos. El uso de otros indicadores, como no-alfa / caracteres numéricos mezclados con alfa /, longitud numérico texto etc proporcionará más indicadores que cuando se aplican de ponderación, puede proporcionar una buena indicación general bastante de entrada galimatías.

La respuesta de Fredley se puede extender a una gramática que construir palabras a partir de letras cercanas.

Por ejemplo asasasasasdf podría ser generado con una gramática que conecta as, sa, sd y df.

Con tal gramática, ampliado a todas las letras en el teclado (con letras que están uno al lado del otro) podría, después del análisis, le dará una medida de la cantidad de un texto se pueden generar con este 'galimatías' gramática.

Advertencia:. Por supuesto, cualquier texto discutir tales gramática y la lista de ejemplos de texto 'guirigay' anotaría significativamente más alto que un texto normal revisión ortográfica

Ten en cuenta que el enfoque ejemplo podría no captura el vandalismo en forma de 'h4x0r rulezzzzz !!!!!'.

Otro enfoque aquí (que puede ser integrado con el método anterior) sería analizar estadísticamente un corpus de texto actos de vandalismo y tratar de conseguir las palabras comunes en los textos objeto de vandalismo.

EDIT:
Puesto que usted está asumiendo QWERTY, supongo que podríamos suponer Inglés, también?

¿Qué hay de KISS - ejecutar el texto a través de Inglés corrector ortográfico y si falla miserablemente la conclusión de que es probable que sea un galimatías (la pregunta es, ¿por qué quiere distinguir galimatías escrito rápidamente de tonterías al azar o para el caso de un texto muy mal escrito? )

Por otra parte, si otras disposiciones de teclado (Dvorak, alguien?) Y las lenguas han de considerarse, entonces tal vez ejecute el texto a través de todos los correctores ortográficos de idiomas disponibles y luego proceder (esta detección automática de idiomas daría, también).

Esto no sería método muy eficiente, pero podría ser utilizado como prueba de referencia.

Nota:
A la larga, me imagino que los vándalos se adaptarían y empezar a destrozar con, por ejemplo, extractos de otras páginas de Wikipedia, lo que sería en última instancia, difícil de detectar automáticamente el vandalismo (bueno, los textos existentes podrían ser una suma de comprobación y la bandera izada en los duplicados, pero si el texto procedía de alguna otra fuente que sería en última instancia duro).

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top