Domanda

Sto usando Spark con Scala per implementare il voto a maggioranza degli alberi decisionali e della foresta casuale (entrambi sono configurati allo stesso modo - stessa profondità, la stessa quantità di classificatori di base ecc.). Il set di dati è diviso equamente tra i classificatori di base per il voto della maggioranza. Il test Nemenyi mostra che il voto della maggioranza è significativamente migliore (per 11 set di dati di benchmarking di Keel).

Da quello che ho capito, la differenza tra questi due metodi è che i dati utilizzati per addestrare la foresta casuale (classificatori di base) potrebbero non riassumere l'intero set di dati. La mia comprensione è corretta? In tal caso, quale potrebbe essere la ragione della differenza osservata?

Inoltre, potresti indicarmi qualsiasi articolo che confronta questi due metodi?

EDIT: se qualcuno era interessato a questo argomento, Ecco Un articolo che confronta il saccheggio con il partizionamento orizzontale a favore di quest'ultimo.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top