Foresta casuale vs votazione a maggioranza
Domanda
Sto usando Spark con Scala per implementare il voto a maggioranza degli alberi decisionali e della foresta casuale (entrambi sono configurati allo stesso modo - stessa profondità, la stessa quantità di classificatori di base ecc.). Il set di dati è diviso equamente tra i classificatori di base per il voto della maggioranza. Il test Nemenyi mostra che il voto della maggioranza è significativamente migliore (per 11 set di dati di benchmarking di Keel).
Da quello che ho capito, la differenza tra questi due metodi è che i dati utilizzati per addestrare la foresta casuale (classificatori di base) potrebbero non riassumere l'intero set di dati. La mia comprensione è corretta? In tal caso, quale potrebbe essere la ragione della differenza osservata?
Inoltre, potresti indicarmi qualsiasi articolo che confronta questi due metodi?
EDIT: se qualcuno era interessato a questo argomento, Ecco Un articolo che confronta il saccheggio con il partizionamento orizzontale a favore di quest'ultimo.
Nessuna soluzione corretta