Scegli algoritmo di classificazione binaria

https://datascience.stackexchange.com/questions/384

16-10-2019
|

Domanda

Ho un problema di classificazione binaria:

circa 1000 campioni di training set
10 attributi, tra cui binario, numerico e categorica

Quale algoritmo è la scelta migliore per questo tipo di problema?

Per impostazione predefinita ho intenzione di iniziare con SVM (preliminari con valori attributi nominali convertiti in funzioni binari), in quanto è considerato il migliore per i dati relativamente pulito e non rumorosa.

Soluzione

E 'difficile da dire senza sapere un po' di più set di dati, e come separabili il set di dati è basata sulla funzione vettoriale, ma probabilmente suggerirei di usare estremo foresta casuale sopra le foreste casuali standard perché della vostra relativamente piccolo campionario.

estremi foreste casuali sono piuttosto simili alle foreste casuali standard con la sola eccezione che invece di ottimizzare divide sugli alberi, estremo foresta casuale fa le spaccature a caso. Inizialmente questo sembrerebbe come un negativo, ma generalmente significa che dovete significativamente migliore generalizzazione e la velocità, anche se l'AUC sul training set è probabile che sia un po 'peggio.

La regressione logistica è anche una scommessa abbastanza solida per questo tipo di attività, anche se con il tuo relativamente bassa dimensionalità e la dimensione piccolo campione sarei preoccupato sovradattamento. Si potrebbe voler controllare con K-vicini vicini in quanto spesso si comporta molto saranno con basse dimensionalità, ma non di solito gestire variabili categoriali molto bene.

Se dovessi scegliere uno senza sapere di più in merito al problema certamente mettere le mie scommesse su estremo foresta casuale, in quanto è molto probabile per darvi una buona generalizzazione su questo tipo di set di dati, e gestisce anche un mix di numerico e dati categorici meglio di altri metodi.

Altri suggerimenti

Per basse parametri, piuttosto limitata dimensione del campione, e un classificatore binario regressione logistica dovrebbe essere abbastanza abbondanza potente. È possibile utilizzare un algoritmo più avanzato, ma è probabilmente eccessivo.

Quando le variabili categoriche sono nel mix, raggiungo casuali decisione foreste, in quanto gestisce le variabili categoriche direttamente senza l'1-di-n codifica trasformazione. Questo perde meno informazioni.

Linear SVM dovrebbe essere un buon punto di partenza. Date un'occhiata a questa guida scegliere stimatore destra.

Sarebbe sconsiglia l'uso di metodi complessi prima. Utilizzare approcci più veloce semplici inizialmente (KNN, NBC, ecc), poi progredire attraverso la regressione lineare, regressione logistica, LDA, CART (RF), Kreg, e poi a minimi quadrati SVM, pendenza SVM salita, RNA, e poi metaheurustics (avidi hill climbing euristica con il gas, swarm intelligence, ottimizzazione colonia di formiche, ecc.)

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange