Classement des documents de texte en utilisant des sujets linéaires / incrémentales

https://datascience.stackexchange.com/questions/8114

16-10-2019
|

Question

Je tente de documents texte Classifier en utilisant quelques dimensions différentes. Je suis en train de créer des sujets arbitraires à classer comme la taille et la pertinence, qui sont dans la nature linéaire ou progressive. Par exemple:

taille: minuscule, petit, moyen, grand, énorme. pertinence: mauvais, ok, bon, excellent, impressionnant

Je suis la formation classificateur à la main. Par exemple, ce document représente une chose « petit », cet autre document discute une chose « grand ». Lorsque je tente multi-étiquettes ou SVM multi-classes pour cela, il ne fonctionne pas bien et il fait aussi logiquement pas de sens.

Quel modèle dois-je utiliser cela me aider à prédire ce type linéaire des données? J'utilise scikit-learn actuellement avec un vecteur TFIDF des mots.

La solution

Si vous voulez que ces dimensions de sortie pour être continu, il suffit de convertir votre taille et la pertinence des mesures pour cibles à valeurs réelles. Ensuite, vous pouvez effectuer régression au lieu de classement, en utilisant toute une variété de modèles. Vous pouvez même tenter de former un réseau de neurones cibles multiples pour prédire l'ensemble de ces sorties à la fois.

En outre, vous pouvez envisager d'abord utiliser un tel modèle que de sujet LDA comme espace de représentation

Sur la base des valeurs, il semble que la « pertinence » pourrait être une variable par des techniques mieux capturées à partir de sentiment analyse .

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange