qual è il modo migliore per generare i dati falsi per problema di classificazione?

https://stackoverflow.com/questions/2611765

25-09-2019
|

Domanda

sto lavorando su un progetto e ho un sottoinsieme di data.This tempo chiave ictus-mezzi di utente che l'utente effettua n tentativi e mi userà questi dati in tempo tentativo registrati in vari tipi di algoritmi di classificazione per i futuri tentativi di utente per verificare che il processo di login è fatto da parte dell'utente o di qualche altra persona. (È sufficiente posso dire che questo è biometria)

Ho 3 momenti diversi del processo di tentativo di accesso utente, naturalmente questo è sottoinsieme dei dati infinita.

fino ad ora si tratta di un semplice problema di classificazione, ho deciso di usare WEKA ma per quanto ho capito devo creare alcuni dati falsi per alimentare la classificazione tentativi misurati algorithm.The dell'utente saranno 1 e dati falsi saranno 0.

Posso utilizzare alcuni algoritmi di ottimizzazione? o c'è un modo per creare questi dati falsi per ottenere numero minimo di falsi positivi?

Grazie

Soluzione

Ci sono un paio di modi diversi si può andare su questo avvicinamento.

Raccogliere esempi negativi - Una semplice soluzione sarebbe quella di solo raccogliere i dati di sincronizzazione di tasti da altre persone che potrebbero essere utilizzati come esempi negativi. Se si desidera raccogliere un ampio campione molto a buon mercato , come in circa 1000 campioni per circa $ 10, è possibile utilizzare un servizio come Amazon Mechanical Turk .

Cioè, si potrebbe mettere insieme un compito intelligenza umana (HIT), che ha il tipo di persone a password casuale come sequenze. Per ottenere le informazioni di temporizzazione è necessario utilizzare un domanda esterna , dal momento che il codice HTML con restrizioni per le domande regolari non supporta JavaScript.

Usa un modello generativo - In alternativa, si potrebbe formare un modello di probabilità generativa al comportamento di battitura di un utente. Ad esempio, è possibile addestrare un href="http://en.wikipedia.org/wiki/Mixture_model" rel="noreferrer"> gaussiana modello miscela per il ritardo per l'utente tra le sequenze di tasti.

Tale modello una vi darà una stima di probabilità di informazioni di temporizzazione tasto generato da un utente specifico. Si sarebbe quindi solo bisogno di impostare una soglia di quanto probabilmente l'informazione di temporizzazione deve essere in ordine per l'utente di essere autenticato.

SVM Usa 1 di classe - Infine, SVM 1 classe permette di allenarsi uno SVM come classificatore utilizzando solo esempi positivi. Per saperne di SVM una classe nel WEKA , utilizzare il wrapper LibSVM se si sta utilizzando v3.6. Se si utilizza la versione di sanguinamento sviluppatore bordo, c'è weka.classifiers.meta.OneClassClassifier.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow