Pergunta

O vencedor de um recente Taxas de vandalismo detecção de concorrência sugere-se que a detecção pode ser melhorado "a detecção aleatória teclado hits considerando QWERTY o layout do teclado".

Exemplo: woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

Existe algum software que isso já (de preferência livre e de código aberto) ?

Se não, há activa de um projeto de software livre, cujo objetivo é para conseguir isso?

Se não, como você sugere para implementar um software?

Foi útil?

Solução

Se dois bigrams No texto analisado, o texto está próximo em termos Qwerty, mas possui quase zero frequência estatística no idioma inglês (como pares "FG" ou "CD"), então há chance de que os acertos aleatórios do teclado estejam envolvidos. Se mais desses pares forem encontrados, o acaso aumenta bastante.

Se você deseja levar em consideração o uso de ambas as mãos para bater, teste as cartas que são separadas com outra letra para a proximidade de Qwerty, mas dois bigrams (ou mesmo trigramas) para a frequência bigram. Por exemplo, no texto "flsjf", você veria F e S quanto à distância qwerty, mas Bigrams FL e LS (ou TriGram FLS) quanto à frequência.

Outras dicas

A maioria teclado esmagou tende a ser na home linha na minha experiência.Seria razoavelmente simples para verificar se uma alta proporção de caracteres utilizados são asdfjkl;.

Considere a distribuição empírica das sequências de duas letras, ou seja, "Probabilidade de ter a carta, dada a letra B", todas essas probabilidades preenchem uma tabela de tamanho 27x27 (considerando o espaço como uma letra).

Agora, compare isso com dados históricos de um monte de textos em inglês/francês/qualquer coisa. Use a divergência de Kullback para comparação.

A adoção de uma abordagem com base no layout do teclado fornecerá um bom indicador. Com um layout Qwerty, você descobrirá que cerca de 52% das letras em qualquer texto serão da linha superior dos caracteres do teclado. Cerca de 32% dos caracteres serão da linha média e 14% de serão dos resultados. Enquanto isso varia um pouco de um idioma para outro, permanece um padrão muito claro que pode ser detectado. Use a mesma metodologia para descobrir padrões em outros layouts de teclado e, em seguida, detecte o layout usado para qualquer texto inserido antes de verificar a bobagem. Embora o padrão seja claro, é melhor usar esse método como um indicador apenas, uma vez que essa metodologia funciona melhor com scripts mais longos. O uso de outros indicadores, como caracteres não alfa/numéricos misturados com alfa/numérico, o comprimento do texto etc. fornecerá mais indicadores que, ao aplicar a ponderação, podem fornecer uma boa indicação geral de entrada sem sentido.

A resposta de Fredley pode ser estendida a uma gramática que construiria palavras de cartas próximas.

Por exemplo asasasasasdf pode ser gerado com uma gramática que se conecta as, sa, sd e df.

Com essa gramática, expandida para todas as letras no teclado (com letras próximas uma da outra) poderiam, depois de analisar, dar uma medida de quanto de um texto pode ser gerado com essa gramática 'sem sentido'.

Advertência: Obviamente, qualquer texto que discute essa gramática e exemplos de listagem do texto 'sem sentido' marcaria significativamente maior do que um texto regular com verificação ortográfica.

Observe que a abordagem de exemplo não pegaria vandalismo na forma de 'h4x0r regrazzzzz !!!!!'.

Outra abordagem aqui (que pode ser integrada ao método acima) seria analisar estatisticamente um corpus de texto vandalizado e tentar obter palavras comuns em textos vandalizados.

EDITAR:
Como você está assumindo Qwerty, acho que também poderíamos assumir o inglês?

E o Kiss - execute o texto através do verificador ortográfico em inglês e se falhar miseravelmente concluir que provavelmente é bobagem (a questão é: por que querer distinguir rapidamente tamanhos digitados de bobagens aleatórias ou, nesse assunto, de um texto muito grave?)

Como alternativa, se outros layouts de teclado (Dvorak, alguém?) E idiomas devem ser considerados, talvez execute o texto através de todos os verificadores de ortografia de idiomas disponíveis e depois prosseguiria (isso também daria um idioma de idioma).

Este não seria um método muito eficiente, mas poderia ser usado como teste de linha de base.

Observação:
A longo prazo, imagino que os vândalos se adaptariam e começariam a vandalizar com, por exemplo, trechos de outras páginas da Wikipedia, que seriam difíceis de detectar automaticamente como vandalismo (OK, os textos existentes poderiam ser verificados e bandeira levantada em duplicatas, mas se textos veio de alguma outra fonte, seria difícil).

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top