Gestione di un set di funzionalità sempre più regolarmente

https://datascience.stackexchange.com/questions/634

16-10-2019
|

Domanda

Sto lavorando su un sistema di rilevamento delle frodi. In questo campo, nuove frodi apparire regolarmente, in modo che le nuove caratteristiche devono essere aggiunti al modello su base continuativa.

Mi chiedo quale sia il modo migliore per gestire la cosa (dal punto di vista processo di sviluppo)? Solo l'aggiunta di una nuova funzionalità in funzione vettoriale e ri-formazione del classificatore sembra essere un approccio ingenuo, perché troppo tempo sarà speso per la ri-apprendimento delle antiche caratteristiche.

Sto pensando lungo il percorso di formazione di un classificatore per ogni caratteristica (o un paio di caratteristiche correlate), e poi combinando i risultati di tali classificatori con un classificatore complessiva. Ci sono degli svantaggi di questo approccio? Come posso scegliere un algoritmo per il classificatore generale?

Soluzione

In un mondo ideale, si conservano tutti i dati storici, e si fa anzi esegue un nuovo modello con la nuova funzione di estratto retroattivamente dai dati storici. Direi che la risorsa di calcolo speso per questo è molto utile in realtà. E 'davvero un problema?

Sì, è una tecnica ampiamente accettato per costruire un insieme di classificatori e combinare i loro risultati. È possibile costruire un nuovo modello in parallelo solo sulle nuove funzionalità e media nella sua previsione. Questo dovrebbe aggiungere valore, ma, non si sarà mai catturare l'interazione tra i vecchi e nuovi funzioni in questo modo, dal momento che non potranno mai apparire insieme in un classificatore.

Altri suggerimenti

Ecco un'idea che appena spuntato fuori dal nulla - cosa succede se si fanno uso di a caso Subspazio campionamento (come di fatto Sean Owen già suggerito) di formare un gruppo di nuovi classificatori ogni volta che un nuovo appare funzione (utilizzando una caratteristica casuale sottoinsieme, tra cui la nuova serie di caratteristiche). Si potrebbe formare quei modelli su un sottoinsieme di campioni anche per risparmiare un po 'di tempo di formazione.

In questo modo è possibile avere nuovi classificatori eventualmente tenendo su entrambe le nuove e vecchie caratteristiche, e allo stesso tempo mantenere i vecchi classificatori. Si potrebbe anche, magari utilizzando una tecnica di convalida incrociata per misurare le prestazioni di ogni categoria di classificazione, in grado di uccidere-off i peggiori quelli che svolgono dopo un po ', al fine di evitare un modello gonfio.

Ciò che si descrive rientra nella categoria di concetto deriva nel machine learning. Si potrebbe trovare idee interessanti e attuabili in questo sintesi carta e troverete una tassonomia del possibile approcci in queste diapositive .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange