Utiliser Smote pour la génération de données synthétiques pour améliorer les performances des données déséquilibrées

datascience.stackexchange https://datascience.stackexchange.com/questions/47228

Question

J'ai actuellement un ensemble de données avec 21392 échantillons, dont 16948 appartiennent à la classe majoritaire (classe A) et les 4444 restants appartiennent à la classe minoritaire (classe B). J'utilise actuellement Smote (technique de sur-échantillonnage de la minorité synthétique) pour générer des données synthétiques, mais je suis confus quant au pourcentage d'échantillons synthétiques devraient être générés idéalement pour garantir de bonnes performances de classification des modèles d'apprentissage automatique / Deep Learning.

J'ai quelques options en tête: - 1. La première option consiste à générer 21392 nouveaux échantillons, avec 16904 échantillons majoritaires de classe A et 4488 échantillons minoritaires restants de la classe B. Ensuite, fusionnez les nouveaux échantillons originaux et générés par synthèse. Cependant, le principal inconvénient que je crois est que le pourcentage d'échantillons minoritaires dans mon ensemble de données global (original + nouveau) resterait plus ou moins le même, ce qui, je pense, bat le but de suréchantillonner les échantillons minoritaires. 2. La deuxième option consiste à générer 21392 nouveaux échantillons, avec 16904 majorité et 4488 échantillons minoritaires restants. Ensuite, fusionnez uniquement les données d'origine avec les échantillons minoritaires nouvellement générés des nouvelles données. De cette façon, le pourcentage d'échantillons minoritaires (classe B) dans mes données globales augmenterait (à partir de 4444/21392 = 20.774 % à (4444+4488)/(21392+4488) = 34.513 %. Je crois que c'est le but de SCOT (augmenter le nombre d'échantillons minoritaires et réduire le déséquilibre dans l'ensemble de données global).

Je suis assez nouveau dans l'utilisation de Smote et j'apprécierais fortement toutes les suggestions / commentaires sur les 2 options que vous trouvez-vous mieux, ou toute autre option que je peux considérer aux côtés.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top