Voting de forêt aléatoire vs majorité

https://datascience.stackexchange.com/questions/61890

02-11-2019
|

Question

J'utilise Spark with Scala pour mettre en œuvre le vote majoritaire des arbres de décision et des forêts aléatoires (les deux sont configurées de la même manière - la même profondeur, la même quantité de classificateurs de base, etc.). L'ensemble de données est divisé également entre les classificateurs de base pour le vote majoritaire. Le test Nemenyi montre que le vote majoritaire est nettement meilleur (pour 11 ensembles de données d'analyse comparative de Keel).

D'après ce que je comprends, la différence entre ces deux méthodes est que les données utilisées pour former des forêts aléatoires (classificateurs de base) peuvent ne pas résumer à l'ensemble de l'ensemble de données. Ma compréhension est-elle correcte? Si oui, quelle pourrait être la raison de la différence observée?

Pourriez-vous également me diriger vers des articles comparant ces deux méthodes?

Edit: si quelqu'un était intéressé par ce sujet, voici Un article comparant l'ensachage avec une partition horizontale en faveur de ce dernier.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange