Question

Je crée ma propre implémentation d'un classificateur de Bayes naïf. Bien que son comportement et ses fonctionnalités soient clairs pour moi, mes préoccupations sont sur la nature des données de formation et de test.

J'ai acquis plusieurs ensembles de critiques de produits d'Amazon. La première chose que je fais est de les analyser, c'est-à-dire en prenant la note (1 à 5 étoiles) et le texte, que je analyse un regex pour ne contenir que des caractères et des espaces alphabétiques. Ensuite, je convertisse les notes en valeurs polaires, donc 1 et 2 étoiles deviennent «-« et 4 et 5 étoiles deviennent «+». Je saute intentionnellement des critiques avec 3 étoiles; Serait-ce un problème?

Voici mes vraies préoccupations. Lorsque vous utilisez un pourcentage de division pour générer des ensembles de formation et de test, les deux devraient-ils tous les deux contenir la même part de revues positives et négatives (telles que 7 revues positives et 7 négatifs pour la formation et 3 revues positives et 3 négatives pour les tests)? En ce moment, j'acquiert autant de critiques positives que les critiques négatives de l'ensemble choisi, mais je me demande si cela devrait être le cas. Par exemple, si un ensemble contient 7 avis positifs et 4 négatifs, je rejette 3 critiques positives pour les assimiler.

De plus, j'ai observé que les critiques négatives ont tendance à contenir des textes plus longs en moyenne. Donc, si j'utilise un nombre égal de critiques positives et négatives, mais qu'elles diffèrent sur la longueur du texte moyenne, cela aurait-il un impact sur la façon dont mon classificateur essaie de prédire?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top