albero di decisione o di regressione logistica?

https://datascience.stackexchange.com/questions/6048

16-10-2019
|

Domanda

Sto lavorando su un problema di classificazione. Ho un insieme di dati che contiene lo stesso numero di variabili categoriali e le variabili continue. Come faccio a sapere ciò che la tecnica da usare? tra un albero di decisione e di una regressione logistica?

E 'diritto di presumere che la regressione logistica sarà più adatto a variabile continua e albero decisionale sarà più adatto per un funzionamento continuo + categorica variabile?

Soluzione

Lunga storia breve :. fare quello @untitledprogrammer detto, provare entrambi i modelli e cross-Convalida per aiutare a raccogliere un

Entrambi alberi di decisione (a seconda della realizzazione, per esempio C4.5) e regressione logistica dovrebbe essere in grado di gestire dati continui e categoriali bene. Per la regressione logistica, ti consigliamo di tua variabili categoriali .

Come @untitledprogrammer accennato, è difficile sapere a priori quale tecnica sarà meglio basata semplicemente sui tipi di caratteristiche che avete, continui o meno. In realtà dipende esattamente il problema e i dati che avete. (Vedere No Free Lunch Teorema )

Ti consigliamo di tenere a mente però che un modello di regressione logistica è alla ricerca di un unico limite di decisione lineare nel vostro spazio funzione, mentre un albero di decisione è essenzialmente funzione di partizionamento del vostro spazio in mezze spazi utilizzando asse- Allineati frontiere decisionali lineari. L'effetto netto è che avete un limite di decisione non lineare, forse più di uno.

Questo è bello quando i punti dati non sono facilmente separati da un solo iperpiano, ma d'altra parte, le decisioni alberi sono così flessibili che possono essere soggetti a sovradattamento. Per combattere questo, si può provare la potatura. La regressione logistica tende ad essere meno sensibili (ma non immuni!) per overfitting.

Infine, un'altra cosa da considerare è che gli alberi di decisione possono prendere automaticamente conto delle interazioni tra le variabili, per esempio $ $ Xy se si dispone di due indipendenti caratteristiche $ x $ e $ y $. Con regressione logistica, dovrete aggiungere manualmente i termini di interazione da soli.

Quindi devi chiedere a te stesso:

che tipo di confine decisione ha più senso nel vostro problema particolare?
come si desidera pregiudizi equilibrio e varianza?
sono lì interazioni tra le mie caratteristiche?

Naturalmente, è sempre una buona idea basta provare entrambi i modelli e fare la convalida incrociata. Questo vi aiuterà a scoprire che uno è più probabilità di avere una migliore errore di generalizzazione.

Altri suggerimenti

Prova a usare entrambi gli alberi di regressione e di decisione. Confrontare l'efficienza di ogni tecnica utilizzando una piega validazione incrociata 10. Bastone a quello con maggiore efficienza. Sarebbe difficile da giudicare quale metodo sarebbe una misura più semplicemente sapendo che il vostro set di dati è continua e, o categoriale.

In realtà dipende la struttura della distribuzione sottostante dei dati. Se si dispone di una forte ragione di credere che i dati approssimano una distribuzione di Bernoulli, la regressione logistica multinomiale si esibirà bene e vi darà risultati interpretabili. Tuttavia, se esistono strutture non lineari nella distribuzione sottostante, si dovrebbe prendere seriamente in considerazione un metodo non parametrico.

Mentre si potrebbe utilizzare un albero decisionale come metodo non parametrico, si potrebbe anche prendere in considerazione esaminando la generazione di un casuale foresta- questo genera essenzialmente un gran numero di alberi di decisione individuali da sottoinsiemi di dati e la classifica finale è il voto agglomerato di tutti gli alberi. Una foresta a caso aiuta a dare un'idea della quota di ciascuno contribuisce variabili predittore della risposta.

Un altro fattore da tenere a mente è interpretabilità. Se si sta solo cercando di dati di classificare, allora probabilmente non si preoccupano delle relazioni sottostanti tra variabili esplicative e di risposta. Tuttavia, se siete interessati a tutti in interpretabilità una regressione logistica multinomiale è molto più facile da interpretare, metodi parametrici in generale, perché fanno ipotesi circa la distribuzione sottostante, dirvi di più intuitivo relazioni interpretabili.

Per uso Albero decisionale, si dovrebbe trasformare la variabile continua in categorica.

Una cosa di più, regressione logistica è di solito utilizzato per prevedere risultato in base alla probabilità.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange